ИИ-бот ChatGPT нельзя доверять: он врет в 37% случаев, хотя и стоит миллиарды долларов

3 марта, 13:45

Интересно, что o3-mini от OpenAI, более дешевая и уменьшенная версия GPT-4o, "галлюцинирует" в 80,3% случаев.

Используя SimpleQA, инструмент для оценки фактов, компания OpenAI признала, что ее новая большая языковая модель (БЯМ) GPT-4.5 "галлюцинирует", то есть ИИ выдает выдумки за факты в 37% случаев, пишет futurism.com.

ИИ-модель от компании, которая стоит сотни миллиардов долларов, лжет более чем в одном из трех ответов, которые она дает. OpenAI пытается представить проблему "лжи" GPT-4.5 как нечто хорошее, утверждая, что этот чат-бот не "галлюцинирует" так часто, как БЯМ от других компаний.

На графике показано, как часто новая ИИ-модель врет. Также известно, что GPT-4o, якобы усовершенствованная модель "рассуждений", "галлюцинирует" в 61,8% случаев, что удалось выяснить благодаря проверке фактов SimpleQA. Было обнаружено, что o3-mini от OpenAI, более дешевая и уменьшенная версия GPT-4o, "галлюцинирует" в 80,3% случаев.

Конечно, эта проблема не уникальна для OpenAI, пишет СМИ.

"В настоящее время даже лучшие модели могут генерировать текст без "галлюцинаций" только в 35% случаев", — объяснил Вентинг Чжао, докторант Корнеллского университета. — "Самый важный вывод из нашей работы по проверке фактов заключается в том, что мы пока не можем полностью доверять результатам генерации".

Помимо недоверия к компании, получающей сотни миллиардов долларов инвестиций в продукты, у которых есть такие проблемы, это многое говорит об индустрии ИИ в целом, — что именно нам продают? Дорогие, ресурсоемкие системы, которые должны приближаться к человеческому уровню интеллекта, но все еще не могут правильно понимать основные факты, сетуют авторы материала.

Поскольку БЯМ OpenAI перестают расти в производительности, компания явно хватается за соломинку, чтобы вернуть интерес к своему чат-боту, который был высок в те дни, когда ChatGPT впервые появился. Но для этого нам, вероятно, понадобится увидеть настоящий прорыв, а не еще больше лжи, резюмировали авторы.

Источник материала