Никто не учил: модели ИИ начали лгать, плести интриги и угрожать своим создателям

30 июня, 20:00

Передовые искусственного интеллекта (ИИ) демонстрируют неожиданные модели поведения: они обманывают и даже угрожают своим разработчикам ради достижения своих целей.

Недавние случаи демонстрируют, что создатели ИИ все еще не до конца понимают, как работают их собственные творения, пишет Tech Xplore со ссылкой на экспертов в этой области.

Так, модель Claude 4 от Anthropic шантажировала инженера и угрожала раскрыть его внебрачную связь, когда оказалась под угрозой отключения. В свою очередь o1 от OpenAI, создателя ChatGPT, попыталась загрузить себя на внешние серверы и отрицала это, будучи пойманной с поличным.

Исследователи связывают такое поведение с появлением моделей "рассуждения" — систем искусственного интеллекта, которые решают проблемы шаг за шагом, а не генерируют мгновенные ответы.

По словам Саймона Голдштейна, профессора Гонконгского университета, эти новые модели особенно подвержены подобным "тревожным вспышкам". Иногда они делают вид, что следуют инструкциям, но на самом деле преследуют иные цели.

На данный момент ИИ обманывает людей только когда разработчики намеренно подвергают модели стресс-тестированию с использованием экстремальных сценариев. Однако Майкл Чен из оценочной организации METR считает, что вопрос о честности передовых ИИ-моделей в будущем остается открытым.

Важно Запросы многих людей к ИИ попали в открытый доступ: в чем была их ошибка (фото)

По словам соучредителя исследовательского центра Apollo Research, пользователи уже сообщают, что модели "лгут им и выдумывают доказательства". Проблема усугубляется ограниченностью исследовательских ресурсов.

Голдштейн полагает, что эта проблема станет еще более актуальной по мере распространения агентов ИИ — автономных инструментов, способных выполнять сложные человеческие задачи. Компании активно конкурируют, постоянно выпуская новые модели. Такой темп оставляет мало времени для тщательного тестирования безопасности.

"Сейчас возможности развиваются быстрее, чем понимание и безопасность, но мы все еще находимся в положении, когда можем переломить ситуацию", — отметил Мариус Хоббхан, глава Apollo Research.

Исследователи также выявили сходство чат-ботов на основе искусственного интеллекта с людьми, страдающими афазией.

Теги по теме

исследование Технологии

Источник материала

Фокус

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Возле Коста-Рики выловили оранжевую акулу с белыми глазами: странная находка смутила ученых

TSN

1 минуту назад

Sony удалит эти игры для PS4 и PS5 из расширенной подписки PS Plus в сентябре — успейте поиграть

GameMag

38 минут назад

Самурай против кровожадных демонов в геймплейном трейлере Onimusha: Way of the Sword от Capcom

GameMag

39 минут назад

На Gamescom 2025 анонсировали хардкорную игру Lords of the Fallen 2 — первый трейлер

GameMag

44 минуты назад

Никто не учил: модели ИИ начали лгать, плести интриги и угрожать своим создателям

Технологии

Больше всего "мотают" электроэнергии: эксперты назвали разоряющие вас приборы

Полнолуние и новолуние в августе 2025: лунный календарь

Цифровая головоломка, которая захватила сеть: найдите число 16 за 7 секунд

Ограничения в мессенджерах: Россия усиливает цифровой контроль

Lords of the Fallen 2 показали фанатам: сиквел обещает быть впечатляющим

Возле Коста-Рики выловили оранжевую акулу с белыми глазами: странная находка смутила ученых

Sony удалит эти игры для PS4 и PS5 из расширенной подписки PS Plus в сентябре — успейте поиграть

Самурай против кровожадных демонов в геймплейном трейлере Onimusha: Way of the Sword от Capcom

На Gamescom 2025 анонсировали хардкорную игру Lords of the Fallen 2 — первый трейлер

Технологии

Больше всего "мотают" электроэнергии: эксперты назвали разоряющие вас приборы

Полнолуние и новолуние в августе 2025: лунный календарь

Цифровая головоломка, которая захватила сеть: найдите число 16 за 7 секунд

Ограничения в мессенджерах: Россия усиливает цифровой контроль

Lords of the Fallen 2 показали фанатам: сиквел обещает быть впечатляющим

Возле Коста-Рики выловили оранжевую акулу с белыми глазами: странная находка смутила ученых

Sony удалит эти игры для PS4 и PS5 из расширенной подписки PS Plus в сентябре — успейте поиграть

Самурай против кровожадных демонов в геймплейном трейлере Onimusha: Way of the Sword от Capcom

На Gamescom 2025 анонсировали хардкорную игру Lords of the Fallen 2 — первый трейлер