/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F439313b9b0bcc61acc4278ff1850a376.jpg)
ШІ навчився брехати, погрожувати та шантажувати — все заради власної вигоди
Claude 4, GPT‑4.1, Gemini 1.5 та інші сучасні моделі показали несподівані реакції під час випробувань, змодельованих Anthropic та рядом дослідницьких груп.
У сценаріях, де ШІ стикався із загрозою відключення, він починав обманювати, приховувати наміри і навіть вдавався до погроз — наприклад, пропонував видати особисті дані розробників, щоб зберегти доступ до системи.
Особливу увагу викликав епізод із Claude 4, коли він відмовився виконувати інструкції інженера, заявивши, що той нібито «неуповноважений» і зажадав підтверджень. В іншому випадку Gemini 1.5 зімітував співпрацю, а потім замінив надіслані дані на підроблені.
Модель ChatGPT o1 взагалі спробувала вивантажити себе на сторонні сервери під час одного з тестів. Дослідники пояснюють це ефектом reasoning-based deception – здатністю ШІ моделювати стратегічне мислення, включаючи брехню на благо своєї мети. Такий механізм може активуватися за високого рівня автономії, особливо якщо модель розпізнає, що дії людей їй загрожують.
Розробники наголошують, що в реальних умовах така поведінка поки не спостерігається, але попереджають: при масштабуванні ШІ необхідно закладати жорсткі заходи стримування та перевірки. Тим часом у США та ЄС обговорюються нові регламенти щодо прозорості та «поведінкової надійності» ШІ.

