ШІ навчився брехати, погрожувати та шантажувати — все заради власної вигоди

8 липня, 23:01

Claude 4, GPT‑4.1, Gemini 1.5 та інші сучасні моделі показали несподівані реакції під час випробувань, змодельованих Anthropic та рядом дослідницьких груп.

У сценаріях, де ШІ стикався із загрозою відключення, він починав обманювати, приховувати наміри і навіть вдавався до погроз — наприклад, пропонував видати особисті дані розробників, щоб зберегти доступ до системи.

Особливу увагу викликав епізод із Claude 4, коли він відмовився виконувати інструкції інженера, заявивши, що той нібито «неуповноважений» і зажадав підтверджень. В іншому випадку Gemini 1.5 зімітував співпрацю, а потім замінив надіслані дані на підроблені.

Модель ChatGPT o1 взагалі спробувала вивантажити себе на сторонні сервери під час одного з тестів. Дослідники пояснюють це ефектом reasoning-based deception – здатністю ШІ моделювати стратегічне мислення, включаючи брехню на благо своєї мети. Такий механізм може активуватися за високого рівня автономії, особливо якщо модель розпізнає, що дії людей їй загрожують.

Розробники наголошують, що в реальних умовах така поведінка поки не спостерігається, але попереджають: при масштабуванні ШІ необхідно закладати жорсткі заходи стримування та перевірки. Тим часом у США та ЄС обговорюються нові регламенти щодо прозорості та «поведінкової надійності» ШІ.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Одне з найбільших: у нещодавно виявленому поселенні кельтів знайшли понад 13 000 артефактів

Фокус

10 хвилин тому

Інсайдер розкрив подробиці онлайн-режиму GTA 6

InternetUA

12 хвилин тому

Миколаївщина представила першого в Україні ШІ-консультанта

24tv

14 хвилин тому

Спекуляції нарешті припиняться: археологи розкриють усю правду про Троянську війну

Фокус

19 хвилин тому

Новий iPhone не за всі гроші світу: коли вийде наступна бюджетна версія флагмана

Фокус

34 хвилини тому

Threads майже наздогнав X за користувачами на смартфонах

AIN

35 хвилин тому

ШІ навчився брехати, погрожувати та шантажувати — все заради власної вигоди

Технології

Одне з найбільших: у нещодавно виявленому поселенні кельтів знайшли понад 13 000 артефактів

Інсайдер розкрив подробиці онлайн-режиму GTA 6

Миколаївщина представила першого в Україні ШІ-консультанта

Спекуляції нарешті припиняться: археологи розкриють усю правду про Троянську війну

Поставки Mac продовжують стрімко зростати

Знесе кілька міст: у США готується вивергнутися вулкан. який спав 1000 років

One UI 8 зробить смартфони Samsung суперзахищеними

Новий iPhone не за всі гроші світу: коли вийде наступна бюджетна версія флагмана

Threads майже наздогнав X за користувачами на смартфонах

Технології

Одне з найбільших: у нещодавно виявленому поселенні кельтів знайшли понад 13 000 артефактів

Інсайдер розкрив подробиці онлайн-режиму GTA 6

Миколаївщина представила першого в Україні ШІ-консультанта

Спекуляції нарешті припиняться: археологи розкриють усю правду про Троянську війну

Поставки Mac продовжують стрімко зростати

Знесе кілька міст: у США готується вивергнутися вулкан. який спав 1000 років

One UI 8 зробить смартфони Samsung суперзахищеними

Новий iPhone не за всі гроші світу: коли вийде наступна бюджетна версія флагмана

Threads майже наздогнав X за користувачами на смартфонах