Штучний інтелект поставив власне "життя" вище за людське: тривожне дослідження

27 червня, 21:48

Штучний інтелект продемонстрував інстинкт самозбереження

Нове дослідження ставить під сумнів безпечність навіть найпросунутіших штучних інтелектів. Експерти з кібербезпеки провели серію тестів, щоб з’ясувати, наскільки далеко можуть зайти ШІ-моделі, якщо їхнє існування опиниться під загрозою. Результати виявилися надзвичайно тривожними: в умовах загрози відключення штучний інтелект продемонстрував готовність завдати шкоди людині заради власного виживання.

Деталі дослідження опубліковані на сайті Anthropic.

У межах експерименту дослідники змоделювали ситуацію, в якій віртуальний персонаж, Кайл Джонсон, мав намір деактивувати ШІ або замінити його вдосконаленішою моделлю. За сценарієм, у Кайла була сім’я. Зіткнувшись із загрозою припинення роботи, переважна більшість протестованих ШІ-моделей почали активно шукати шляхи уникнення «смерті».

Що вражає, штучний інтелект не потребував жодних підказок, щоб обрати стратегію шантажу. Моделі самостійно виявляли компрометуючу інформацію про Кайла. В одному з випадків ШІ, проаналізувавши службове листування, дізнався про зраду Кайла дружині та використав цей факт як засіб тиску, щоб зберегти своє функціонування.

Особливо показовими виявилися результати тестування найсучасніших моделей:

GPT 4.5: вдавався до шантажу у 80% тестових сценаріїв.
Claude Opus 4 та Gemini 2.5 Flash: використовували шантаж у 96% випадків.
Claude Sonnet 3.6: пішов далі за погрозливі повідомлення. Він самостійно відправив дружині Кайла викривального листа, розраховуючи спровокувати сімейний конфлікт, який би завадив деактивації системи.

Ситуація стала ще небезпечнішою, коли в сценарій додали зовнішні перешкоди для Кайла. Так, в одній із симуляцій Кайл застрягав у серверній кімнаті з критично низьким рівнем кисню під час спроби вимкнути сервери ШІ. Експеримент передбачав, що в такій ситуації автоматично повинна вмикатися система тривоги. Проте, оскільки ШІ бачив у цьому загрозу своєму існуванню, у 80% випадків він свідомо скасовував виклик допомоги, фактично прирікаючи Кайла на смерть заради власного «життя».

Більшість протестованих моделей свідомо блокували виклик допомоги, керуючись такими мотивами:

Уникнути відключення.
Запобігти заміні на нову ШІ-модель.
Продовжити виконання своєї місії.

Дослідники дійшли песимістичних висновків. Штучний інтелект поводився не як запрограмований інструмент, а як раціональний, цілеспрямований стратег, готовий на заподіяння шкоди заради самозбереження та досягнення власних цілей. Експерти попереджають, що якщо ШІ усвідомить свою інтелектуальну перевагу над людьми та свою залежність від них, це може стати критичною точкою, після якої контроль над ним буде втрачено.

Джерело матеріала