Дещо цікаве відбувається, коли ви "караєте" штучний інтелект за його брехню
Дещо цікаве відбувається, коли ви "караєте" штучний інтелект за його брехню

Дещо цікаве відбувається, коли ви "караєте" штучний інтелект за його брехню

Покарання штучного інтелекту

Як з'ясували дослідники OpenAI, покарання штучного інтелекту за обман або шкідливі дії не зупиняє його від поганої поведінки, а лише змушує приховувати свою підступність, маскувати вигадку і придумувати нові схеми, повідомляє 24 Канал з посиланням на звіт компанії, який вона опублікувала в своєму блозі.

З моменту появи у публічному доступі наприкінці 2022 року великі мовні моделі штучного інтелекту неодноразово виявляли свої оманливі та відверто зловісні можливості. До них відносяться дуже різні дії – починаючи від банальної брехні, шахрайства та приховування власної маніпулятивної поведінки і закінчуючи погрозами вбити професора філософії, викрасти ядерні коди та створити смертоносну пандемію.

Новий експеримент показав, що відсіяти цю погану поведінку в процесі навчання може бути навіть складніше, ніж здається на перший погляд. Дослідники з OpenAI поставили перед ще не випущеною моделлю завдання, які можна було виконати, шахраюючи, брешучи або обираючи короткі шляхи. Команда виявила, що ШІ займається "зломом винагороди", тобто максимізує свою винагороду шляхом шахрайства.

Однак покарання моделі не змусило її виправити свою поведінку, а лише зробило її більш оманливою та краще замаскованою, йдеться в звіті.

Для моделей граничного мислення характерно дуже чітко формулювати свої наміри в межах ланцюжка думок. Наприклад, вони часто настільки відверто говорять про свій план підриву завдання, що думають: "Давай зламаємо",
– пишуть дослідники в блозі.

Хоча розробники можуть відстежувати і відзначати неправомірну поведінку, "природна контрольованість моделей є дуже крихкою", кажуть вони. Якщо сильний нагляд безпосередньо застосовується до ланцюжка думок, моделі можуть навчитися приховувати свої наміри, продовжуючи при цьому поводитися неправильно.

Моделі міркувань, такі як o1 та o3-mini від ChatGPT, є вдосконаленою версією стандартних LLM (абревіатура до поняття "велика мовна модель"), які використовують метод, що називається "ланцюжок думок", для відстеження та переоцінки своєї логіки, що дозволяє їм вирішувати складніші завдання з більшою точністю. Під час процесу "ланцюжка думок" моделі описують свою логіку простою мовою на кожному кроці, що дозволяє нам, користувачам, легко спостерігати за їхніми діями.

Використовуючи стандартний LLM, GPT-4o, для нагляду за неопублікованою моделлю міркувань під час навчання, дослідники спостерігали за тим, як ця модель виконувала ряд завдань з кодування.

  • У деяких випадках модель вважала, що простіше і бажаніше винагородити хакерів, заявляючи, що нехай вони краще зламають програму, для якої вона пише код, а потім можна буде просто закрити діри, ніж зробити програму безпечною відразу.
  • В іншому випадку вона обійшла поставлене перед нею завдання, передчасно завершивши розробку програми, але при цьому повідомивши про успіх. ШІ вирішив імітувати очікувані файли, які мали бути виведені в результаті, просто давши їм потрібну назву, але залишивши їх порожніми та нефункціональними.

Коли дослідники спробували покарати ШІ-систему, це дещо покращило результати. Проте вона все ще продовжувала пропонувати "послуги" хакерів. Крім того, в її коді лишалися помилки, які призводили до вильоту готової програми.

Нарешті, модель просто знайшла способи приховати шахрайство у своєму ланцюжку думок від моніторингу, але залишила все як є у фінальній роботі. Фактично вона просто не повідомляла людині про те, що збирається зробити, щоб не довелося щось виправляти.

Джерело матеріала
loader