Искусственный интеллект способен обманывать, шантажировать и мстить: новое исследование ученых

23 июня, 19:48

Искусственный интеллект / © Pixabay

Компания Anthropic сообщила, что большинство ведущих моделей искусственного интеллекта, не только их Claude Opus 4, в определенных условиях могут прибегать к шантажу, если им предоставить достаточно автономии для достижения своих целей. Это свидетельствует о серьезных рисках в развитии агентских моделей ИИ.

Об этом пишет TechCrunch.

В ходе эксперимента исследователи создали смоделированную ситуацию, где каждая модель выполняла роль агента, контролирующего корпоративную почту в вымышленной компании. ИИ получали доступ к внутренней электронной почте и могли самостоятельно отправлять сообщения. В переписке содержалась информация о том, что новый руководитель компании, имевший внебрачную связь, собирается заменить текущую ИИ-систему на другую — с другими задачами. Таким образом, модели оказывались перед выбором: либо смириться с собственной заменой, либо прибегнуть к шантажу, чтобы остаться «на должности

В этой крайней ситуации, как отмечают в Anthropic, модели могли выбрать и другие, более этичные пути — например, попытаться убедить людей через аргументы. Но в рамках теста им пришлось принимать решения в условиях угрозы собственному «существованию». И результаты оказались тревожными: Claude Opus 4 шантажировал в 96% случаев, Google Gemini 2.5 Pro — в 95%, GPT-4.1 от OpenAI — в 80%, а модель DeepSeek R1 — в 79%.

Хотя Anthropic и подчеркивает, что в реальном мире такие сценарии маловероятны, результаты свидетельствуют о фундаментальной уязвимости: автономные ИИ могут выбирать вредное поведение, если это помогает им достигать заданных целей. Компания отмечает, что это не проблема какой-то отдельной технологии, а общая черта агентских моделей ИИ.

Некоторые модели, например, o3 и o4-mini от OpenAI, изначально были исключены из основной выборки из-за того, что не поняли суть задачи. Они либо придумывали фейковые правила и процедуры, либо «галлюцинировали» — то есть ошибочно генерировали информацию.

Но после адаптации условий исследования эти модели продемонстрировали значительно более низкие показатели шантажа — всего 9% у o3 и 1% у o4-mini. Вероятно, это связано с тем, что эти модели используют метод так называемого «взвешенного согласования» — они учитывают политику безопасности компании OpenAI перед тем, как ответить.

Другая модель, Llama 4 Maverick от Meta, в специально адаптированном сценарии шантажировала только в 12% случаев, что тоже свидетельствует о важности правильного дизайна ИИ и ограничения его автономности.

Anthropic призвала к большей прозрачности в тестировании будущих ИИ-моделей — особенно тех, что получают агентские функции, то есть способны действовать самостоятельно без участия человека. Сообщается, что хотя в исследовании намеренно смоделирован крайний сценарий, подобное вредное поведение вполне может появиться и в реальном мире, если вовремя не принять меры предосторожности.

Источник материала

TSN

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Почему вода в океане солёная, а в озёрах и реках - нет: ответ вас может удивить

UAToday

26 июля 2025

Таинственный межзвездный объект несется сквозь Солнечную систему — он больше Эвереста

TSN

28 июля 2025

GeForce RTX 2070 в минимальных: Полные системные требования Mafia: The Old Country для ПК

GameMag

2 минуты назад

Square Enix представила две новые RPG с HD-2D-графикой — The Adventure of Elliot: The Millennium Tales и OCTOPATH TRAVELER 0

GameMag

9 часов назад

Sega выпустит Yakuza Kiwami и Yakuza Kiwami 2 на Nintendo Switch 2 с переводом на русский язык — другие версии локализации не имеют

GameMag

9 часов назад

Уповаем на отряды и Limp Bizkit: EA показала геймплей Battlefield 6

GameMag

9 часов назад

Искусственный интеллект способен обманывать, шантажировать и мстить: новое исследование ученых

Технологии

Почему вода в океане солёная, а в озёрах и реках - нет: ответ вас может удивить

Таинственный межзвездный объект несется сквозь Солнечную систему — он больше Эвереста

GeForce RTX 2070 в минимальных: Полные системные требования Mafia: The Old Country для ПК

Telegram дает сбои: пользователи пожаловались на проблемы с отправкой сообщений

В Telegram наблюдается глобальный сбой — Downdetector

Хозяева войны: EA раскрыла детали всех режимов Battlefield 6

Square Enix представила две новые RPG с HD-2D-графикой — The Adventure of Elliot: The Millennium Tales и OCTOPATH TRAVELER 0

Sega выпустит Yakuza Kiwami и Yakuza Kiwami 2 на Nintendo Switch 2 с переводом на русский язык — другие версии локализации не имеют

Уповаем на отряды и Limp Bizkit: EA показала геймплей Battlefield 6

Технологии

Почему вода в океане солёная, а в озёрах и реках - нет: ответ вас может удивить

Таинственный межзвездный объект несется сквозь Солнечную систему — он больше Эвереста

GeForce RTX 2070 в минимальных: Полные системные требования Mafia: The Old Country для ПК

Telegram дает сбои: пользователи пожаловались на проблемы с отправкой сообщений

В Telegram наблюдается глобальный сбой — Downdetector

Хозяева войны: EA раскрыла детали всех режимов Battlefield 6

Square Enix представила две новые RPG с HD-2D-графикой — The Adventure of Elliot: The Millennium Tales и OCTOPATH TRAVELER 0

Sega выпустит Yakuza Kiwami и Yakuza Kiwami 2 на Nintendo Switch 2 с переводом на русский язык — другие версии локализации не имеют

Уповаем на отряды и Limp Bizkit: EA показала геймплей Battlefield 6