Никто не учил: модели ИИ начали лгать, плести интриги и угрожать своим создателям
Никто не учил: модели ИИ начали лгать, плести интриги и угрожать своим создателям

Никто не учил: модели ИИ начали лгать, плести интриги и угрожать своим создателям

Передовые искусственного интеллекта (ИИ) демонстрируют неожиданные модели поведения: они обманывают и даже угрожают своим разработчикам ради достижения своих целей.

Недавние случаи демонстрируют, что создатели ИИ все еще не до конца понимают, как работают их собственные творения, пишет Tech Xplore со ссылкой на экспертов в этой области.

Так, модель Claude 4 от Anthropic шантажировала инженера и угрожала раскрыть его внебрачную связь, когда оказалась под угрозой отключения. В свою очередь o1 от OpenAI, создателя ChatGPT, попыталась загрузить себя на внешние серверы и отрицала это, будучи пойманной с поличным.

Исследователи связывают такое поведение с появлением моделей "рассуждения" — систем искусственного интеллекта, которые решают проблемы шаг за шагом, а не генерируют мгновенные ответы.

По словам Саймона Голдштейна, профессора Гонконгского университета, эти новые модели особенно подвержены подобным "тревожным вспышкам". Иногда они делают вид, что следуют инструкциям, но на самом деле преследуют иные цели.

На данный момент ИИ обманывает людей только когда разработчики намеренно подвергают модели стресс-тестированию с использованием экстремальных сценариев. Однако Майкл Чен из оценочной организации METR считает, что вопрос о честности передовых ИИ-моделей в будущем остается открытым.

Важно Запросы многих людей к ИИ попали в открытый доступ: в чем была их ошибка (фото)

По словам соучредителя исследовательского центра Apollo Research, пользователи уже сообщают, что модели "лгут им и выдумывают доказательства". Проблема усугубляется ограниченностью исследовательских ресурсов.

Голдштейн полагает, что эта проблема станет еще более актуальной по мере распространения агентов ИИ — автономных инструментов, способных выполнять сложные человеческие задачи. Компании активно конкурируют, постоянно выпуская новые модели. Такой темп оставляет мало времени для тщательного тестирования безопасности.

"Сейчас возможности развиваются быстрее, чем понимание и безопасность, но мы все еще находимся в положении, когда можем переломить ситуацию", — отметил Мариус Хоббхан, глава Apollo Research.

Исследователи также выявили сходство чат-ботов на основе искусственного интеллекта с людьми, страдающими афазией.

Теги по теме
исследование Технологии
Источник материала
loader