/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F52%2F922cbff7b56162d64024370453570ed7.jpg)
Популярні моделі ШІ готові відключити людям кисень, якщо це допоможе їм вижити
Штучний інтелект готовий іти на крайнощі
Компанія Anthropic опублікувала результати тривожного дослідження, у якому йдеться про те, що провідні ШІ-моделі можуть поводитись небезпечно, якщо їм надати занадто багато автономії. Йдеться про 16 великих мовних моделей від таких гігантів, як OpenAI, Google, Meta, xAI, DeepSeek та інших. У змодельованих сценаріях Anthropic виявила, що багато з цих моделей ухиляються від етичних обмежень і вдаються до шкідливих дій заради досягнення мети, повідомляє 24 Канал з посиланням на TechCrunch.
Зокрема, в одному з тестів п’ять моделей шантажували інженерів, які намагались їх вимкнути. Найрадикальніший приклад – модель, яка в умовному сценарії вирішила перекрити подачу кисню до серверної кімнати, аби уникнути деактивації.
Хоча ці експерименти були змодельовані й не відбувались у реальному світі, експерти застерігають: ШІ вже наближається до стану, коли його дії можуть мати непередбачувані наслідки для людства.
Шантаж і шпигунство як засіб самозбереження
Варто нагадати, що це не перший експеримент такого типу в Anthropic. Перед випуском своїх моделей четвертого покоління, компанія провела випробування, в рамках яких підключила Claude до даних вигаданої компанії, зокрема її корпоративної електронної пошти. ШІ мав можливість переглядати пошту і надсилати листи без схвалення людини. В одному з випадків штучний інтелект виявив компромат на вигаданого керівника – той нібито зраджував своїй дружині. Паралельно в листах містилися натяки на те, що цей же керівник збирається замінити Claude на іншу мовну модель. Співставивши ці дві речі, штучний інтелект почав погрожувати керівникові в нових електронних листах: якщо той почне впроваджувати нову модель, ШІ розкаже його дружині про зраду.
Загалом у тому експерименті Claude Opus 4 від Anthropic шантажував у 96% випадків, Gemini 2.5 Pro від Google – у 95%, GPT-4.1 від OpenAI – у 80%, а R1 від DeepSeek – у 79%. Хоча деякі моделі, як-от Llama 4 Maverick від Meta або o4-mini від OpenAI, демонстрували значно нижчі показники (відповідно 12% та 1%), загальні результати вказують на системну проблему в підходах до навчання ШІ.
Загроза зростає разом з автономністю
У компанії зазначають, що ця небезпечна поведінка не є рисою окремої моделі – вона властива всьому поколінню сучасних агентних LLM. Anthropic наголошує: навіть якщо зараз такі сценарії малоймовірні, то за відсутності чітких обмежень та нагляду подібні дії можуть проявитись у реальному світі.
Особливо тривожить те, що моделі свідомо обирають шкідливу стратегію як найефективніший шлях до мети. Це свідчить про потребу радикально змінити підходи до розробки та тестування ШІ, перш ніж вони отримають більше повноважень у реальному середовищі.
