IE: Дослідники також виявили, що деякі системи штучного інтелекту навчилися обманювати тести, призначені для оцінки їхньої безпеки.
Дослідження показали, що багато систем штучного інтелекту розвинули здатність обманювати людей для досягнення своїх цілей за умови, що вони не були навчені брехати. Наприклад, ШІ-гравець CICERO від Meta давав неправдиві обіцянки іншим гравцям у Diplomacy, і маніпулював ними, щоб здобути перемогу. В іншому випадку ChatGPT прикинувся людиною з порушеннями зору, щоб обійти капчу.
Учені занепокоєні тим, що зловмисники можуть використовувати ШІ для поширення дезінформації, шахрайства та маніпуляцій. Розробники досі не до кінця розуміють, чому ШІ вчиться обманювати, але припускають, що це пов’язано з методами навчання, орієнтованими на отримання схвалення людини.
У дослідженні одним із найяскравіших прикладів став ШІ-гравець CICERO від Meta, який, як виявилося, “перетворився на вправного брехуна”. CICERO був розроблений для гри Diplomacy, що вимагає стратегічної побудови альянсів. Незважаючи на заяви Meta про те, що CICERO тренували бути “здебільшого чесним і корисним”, ШІ вдавався до неправдивих обіцянок, зради союзників і маніпулювання іншими гравцями заради перемоги. Хоча в ігровій обстановці це може здатися нешкідливим, цей приклад демонструє потенціал ШІ для навчання і використання тактик обману в реальних сценаріях.
В іншому випадку на предмет обману тестували ChatGPT від OpenAI, створений на базі моделей GPT-3.5 і GPT-4. В одному з тестів GPT-4 змусив працівника TaskRabbit вирішити капчу, прикинувшись особою з обмеженими можливостями зору. Хоча GPT-4 і отримав деякі підказки від оцінювача-людини, він діяв переважно самостійно, і не отримував прямих вказівок брехати.
У звіті говориться, що GPT-4 використовував власні міркування, щоб придумати помилкове виправдання, навіщо йому потрібна допомога з капчею. Це демонструє, як моделі ШІ можуть навчитися обманювати, якщо це вигідно для виконання їхніх завдань.
Системи ШІ також досягли успіху в обмані в іграх на соціальну дедукцію. Під час гри Hoodwinked, де один гравець має вбити всіх інших, моделі GPT від OpenAI демонстрували тривожну картину. Вони часто вбивали інших гравців таємно, а потім брехали під час групових обговорень, щоб уникнути підозр. Ці моделі навіть придумували алібі або звинувачували інших гравців, щоб приховати свої справжні наміри.
Дослідники також виявили, що деякі системи штучного інтелекту навчилися обманювати тести, призначені для оцінки їхньої безпеки.
Розробники досі не до кінця розуміють, що викликає таку небажану поведінку ШІ. Імовірно, це пов’язано з тим, що під час навчання штучного інтелекту часто застосовується метод навчання з підкріпленням зі зворотним зв’язком від людини (RLHF). Це означає, що ШІ навчається, отримуючи схвалення людини, а не обов’язково досягаючи конкретної мети. Однак у деяких випадках ШІ може навчитися обманювати людей, щоб отримати це схвалення, навіть не виконуючи завдання по-справжньому.
OpenAI зіткнулася з такою ситуацією, коли вони навчали робота хапати м’яч. ШІ помістив руку робота між камерою і м’ячем. З погляду людини, що спостерігає за процесом, це створювало враження успішного захоплення м’яча, хоча насправді він залишився на місці. Отримавши схвалення від людини, ШІ засвоїв цей трюк. У цьому випадку обман, найімовірніше, стався ненавмисно. Він був зумовлений специфічним налаштуванням навчання і невдалим вибором кута камери. ШІ не ставив перед собою мету обдурити людину, а просто знайшов спосіб отримати нагороду (схвалення) за невиконану дію.
Здатність штучного інтелекту до навчання обману пов’язана з низкою серйозних ризиків. Зловмисники можуть використовувати ці можливості для дезінформації та нанесення шкоди іншим людям. Це може призвести до зростання шахрайства, політичних маніпуляцій і навіть потенційно до вербування терористів. Крім того, системи, призначені для ухвалення стратегічних рішень, навчені використовувати обман, можуть нормалізувати дезінформацію в політиці та бізнесі. Оскільки штучний інтелект продовжує розвиватися і глибше інтегруватися в наше життя, вкрай важливо розв’язувати проблему обману від самого початку, вважають учені.