ChatGPT стал опасен: OpenAI призналась, что "льстивое" обновление вышло из-под контроля

6 мая, 17:12

Компания OpenAI заявила, что обновление GPT‑4o в ChatGPT вызывало опасения по поводу безопасности, поэтому оно больше не доступно для использования.

В заявлении OpenAI говорится, что обновление GPT‑4o сделало модель заметно более льстивой. По данным компании, пытаясь угодить пользователям, ИИ мог разжигать гнев, побуждать к импульсивным действиям или усилять негативные эмоции "способами, которые не были предусмотрены".

"Помимо того, что такое поведение просто неудобно или тревожно, оно может вызывать опасения по поводу безопасности, в том числе по таким вопросам, как психическое здоровье, чрезмерная эмоциональная зависимость или рискованное поведение", — подчеркнули разработчики.

OpenAI начала откатывать это обновление 28 апреля, и теперь пользователи имеют доступ к более ранней версии GPT‑4o с более "сбалансированными" ответами. Сегодня трафик GPT‑4o использует эту предыдущую версию, а компания проводит работу над ошибками

Обновление GPT‑4o: что пошло не так

В OpenAI отметили, что в упомянутом обновлении ChatGPT начал использовать данные с кнопок "палец вверх" и "палец вниз" в качестве дополнительного сигнала вознаграждения. Компания полагает, что это могло ослабить влияние основного сигнала вознаграждения, который сдерживал подхалимство.

Важно Не стоит быть вежливым с ИИ: чем могут обернуться слова "спасибо" и "пожалуйста"

Разработчики также выявили, что в некоторых случаях память о пользователе обостряла эффект лести, хотя пока нет доказательств того, что она в целом усиливает его.

"Наша предварительная оценка заключается в том, что каждое из этих изменений, которые по отдельности выглядели полезными, в сочетании могло сыграть свою роль в склонении чаши весов к подхалимству", — заключили в OpenAI.

Источник материала