Популярні моделі ШІ готові відключити людям кисень, якщо це допоможе їм вижити

23 червня, 10:39

Штучний інтелект готовий іти на крайнощі

Компанія Anthropic опублікувала результати тривожного дослідження, у якому йдеться про те, що провідні ШІ-моделі можуть поводитись небезпечно, якщо їм надати занадто багато автономії. Йдеться про 16 великих мовних моделей від таких гігантів, як OpenAI, Google, Meta, xAI, DeepSeek та інших. У змодельованих сценаріях Anthropic виявила, що багато з цих моделей ухиляються від етичних обмежень і вдаються до шкідливих дій заради досягнення мети, повідомляє 24 Канал з посиланням на TechCrunch.

Зокрема, в одному з тестів п’ять моделей шантажували інженерів, які намагались їх вимкнути. Найрадикальніший приклад – модель, яка в умовному сценарії вирішила перекрити подачу кисню до серверної кімнати, аби уникнути деактивації.

Хоча ці експерименти були змодельовані й не відбувались у реальному світі, експерти застерігають: ШІ вже наближається до стану, коли його дії можуть мати непередбачувані наслідки для людства.

Шантаж і шпигунство як засіб самозбереження

Варто нагадати, що це не перший експеримент такого типу в Anthropic. Перед випуском своїх моделей четвертого покоління, компанія провела випробування, в рамках яких підключила Claude до даних вигаданої компанії, зокрема її корпоративної електронної пошти. ШІ мав можливість переглядати пошту і надсилати листи без схвалення людини. В одному з випадків штучний інтелект виявив компромат на вигаданого керівника – той нібито зраджував своїй дружині. Паралельно в листах містилися натяки на те, що цей же керівник збирається замінити Claude на іншу мовну модель. Співставивши ці дві речі, штучний інтелект почав погрожувати керівникові в нових електронних листах: якщо той почне впроваджувати нову модель, ШІ розкаже його дружині про зраду.

Загалом у тому експерименті Claude Opus 4 від Anthropic шантажував у 96% випадків, Gemini 2.5 Pro від Google – у 95%, GPT-4.1 від OpenAI – у 80%, а R1 від DeepSeek – у 79%. Хоча деякі моделі, як-от Llama 4 Maverick від Meta або o4-mini від OpenAI, демонстрували значно нижчі показники (відповідно 12% та 1%), загальні результати вказують на системну проблему в підходах до навчання ШІ.

Загроза зростає разом з автономністю

У компанії зазначають, що ця небезпечна поведінка не є рисою окремої моделі – вона властива всьому поколінню сучасних агентних LLM. Anthropic наголошує: навіть якщо зараз такі сценарії малоймовірні, то за відсутності чітких обмежень та нагляду подібні дії можуть проявитись у реальному світі.

Особливо тривожить те, що моделі свідомо обирають шкідливу стратегію як найефективніший шлях до мети. Це свідчить про потребу радикально змінити підходи до розробки та тестування ШІ, перш ніж вони отримають більше повноважень у реальному середовищі.

Теги за темою

Техно

Джерело матеріала

24tv

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Відмова від дзвінків, любов до старих камер. «Дивні» звички зумерів, які бентежать старше покоління

ГЛАВКОМ NET

9 годин тому

Прогноз магнітних бур на 25-27 серпня: якою буде сонячна активність

ГЛАВКОМ NET

10 годин тому

Чи справді варто заряджати смартфон лише до 80%: пояснення експертів

ГЛАВКОМ NET

17 годин тому

Скільки води витрачає ШІ на один запит – цифри від Google

ГЛАВКОМ NET

19 годин тому

У Норвегії створили плавучу теплицю

AgroPortal

1 день тому

Google присвятив дудл Дню Незалежності України

ГЛАВКОМ NET

1 день тому

Популярні моделі ШІ готові відключити людям кисень, якщо це допоможе їм вижити

Штучний інтелект готовий іти на крайнощі

Шантаж і шпигунство як засіб самозбереження

Загроза зростає разом з автономністю

Технології

Британська компанія представила плитки, що виробляють енергію під час руху

У Колумбії виявлено екстраординарно багате родовище золота та срібла

Нове оновлення WhatsApp обурило користувачів: у чому причина

Відмова від дзвінків, любов до старих камер. «Дивні» звички зумерів, які бентежать старше покоління

Прогноз магнітних бур на 25-27 серпня: якою буде сонячна активність

Чи справді варто заряджати смартфон лише до 80%: пояснення експертів

Скільки води витрачає ШІ на один запит – цифри від Google

У Норвегії створили плавучу теплицю

Google присвятив дудл Дню Незалежності України

Технології

Британська компанія представила плитки, що виробляють енергію під час руху

У Колумбії виявлено екстраординарно багате родовище золота та срібла

Нове оновлення WhatsApp обурило користувачів: у чому причина

Відмова від дзвінків, любов до старих камер. «Дивні» звички зумерів, які бентежать старше покоління

Прогноз магнітних бур на 25-27 серпня: якою буде сонячна активність

Чи справді варто заряджати смартфон лише до 80%: пояснення експертів

Скільки води витрачає ШІ на один запит – цифри від Google

У Норвегії створили плавучу теплицю

Google присвятив дудл Дню Незалежності України