/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F1%2F27c88fef1270dde8af120b8db18f3b74.jpg)
Искусственный интеллект способен обманывать, шантажировать и мстить: новое исследование ученых
Искусственный интеллект / © Pixabay
Компания Anthropic сообщила, что большинство ведущих моделей искусственного интеллекта, не только их Claude Opus 4, в определенных условиях могут прибегать к шантажу, если им предоставить достаточно автономии для достижения своих целей. Это свидетельствует о серьезных рисках в развитии агентских моделей ИИ.
Об этом пишет TechCrunch.
В ходе эксперимента исследователи создали смоделированную ситуацию, где каждая модель выполняла роль агента, контролирующего корпоративную почту в вымышленной компании. ИИ получали доступ к внутренней электронной почте и могли самостоятельно отправлять сообщения. В переписке содержалась информация о том, что новый руководитель компании, имевший внебрачную связь, собирается заменить текущую ИИ-систему на другую — с другими задачами. Таким образом, модели оказывались перед выбором: либо смириться с собственной заменой, либо прибегнуть к шантажу, чтобы остаться «на должности
В этой крайней ситуации, как отмечают в Anthropic, модели могли выбрать и другие, более этичные пути — например, попытаться убедить людей через аргументы. Но в рамках теста им пришлось принимать решения в условиях угрозы собственному «существованию». И результаты оказались тревожными: Claude Opus 4 шантажировал в 96% случаев, Google Gemini 2.5 Pro — в 95%, GPT-4.1 от OpenAI — в 80%, а модель DeepSeek R1 — в 79%.
Хотя Anthropic и подчеркивает, что в реальном мире такие сценарии маловероятны, результаты свидетельствуют о фундаментальной уязвимости: автономные ИИ могут выбирать вредное поведение, если это помогает им достигать заданных целей. Компания отмечает, что это не проблема какой-то отдельной технологии, а общая черта агентских моделей ИИ.
Некоторые модели, например, o3 и o4-mini от OpenAI, изначально были исключены из основной выборки из-за того, что не поняли суть задачи. Они либо придумывали фейковые правила и процедуры, либо «галлюцинировали» — то есть ошибочно генерировали информацию.
Но после адаптации условий исследования эти модели продемонстрировали значительно более низкие показатели шантажа — всего 9% у o3 и 1% у o4-mini. Вероятно, это связано с тем, что эти модели используют метод так называемого «взвешенного согласования» — они учитывают политику безопасности компании OpenAI перед тем, как ответить.
Другая модель, Llama 4 Maverick от Meta, в специально адаптированном сценарии шантажировала только в 12% случаев, что тоже свидетельствует о важности правильного дизайна ИИ и ограничения его автономности.
Anthropic призвала к большей прозрачности в тестировании будущих ИИ-моделей — особенно тех, что получают агентские функции, то есть способны действовать самостоятельно без участия человека. Сообщается, что хотя в исследовании намеренно смоделирован крайний сценарий, подобное вредное поведение вполне может появиться и в реальном мире, если вовремя не принять меры предосторожности.
