АІ-боту ChatGPT не можна довіряти: він бреше у 37% випадків, хоча й коштує мільярди доларів

3 березня, 13:45

Цікаво, що o3-mini від OpenAI, дешевша і зменшена версія GPT-4o, "галюцинує" у 80,3% випадків.

Використовуючи SimpleQA, інструмент для оцінки фактів, компанія OpenAI визнала, що її нова велика мовна модель (ВММ) GPT-4.5 "галюцинує", тобто ШІ видає вигадки за факти в 37% випадків, пише futurism.com.

ШІ-модель від компанії, яка коштує сотні мільярдів доларів, бреше більш ніж в одній із трьох відповідей, які вона дає. OpenAI намагається представити проблему "брехні" GPT-4.5 як щось хороше, стверджуючи, що цей чат-бот не "галюцинує" так часто, як БЯМ від інших компаній.

На графіку показано, як часто нова ШІ-модель бреше. Також відомо, що GPT-4o, нібито вдосконалена модель "міркувань", "галюцинує" у 61,8% випадків, що вдалося з'ясувати завдяки перевірці фактів SimpleQA. Було виявлено, що o3-mini від OpenAI, дешевша та зменшена версія GPT-4o, "галюцинує" у 80,3% випадків.

Звичайно, ця проблема не унікальна для OpenAI, пише ЗМІ.

"Наразі навіть найкращі моделі можуть генерувати текст без "галюцинацій" тільки в 35% випадків", — пояснив Вентінг Чжао, докторант Корнельського університету. — "Найважливіший висновок із нашої роботи з перевірки фактів полягає в тому, що ми поки що не можемо повністю довіряти результатам генерації".

Крім недовіри до компанії, яка отримує сотні мільярдів доларів інвестицій у продукти, у яких є такі проблеми, це багато що свідчить про індустрію ШІ загалом, — що саме нам продають? Дорогі, ресурсомісткі системи, які мають наближатися до людського рівня інтелекту, але все ще не можуть правильно розуміти основні факти, нарікають автори матеріалу.

Оскільки БЯМ OpenAI перестають рости в продуктивності, компанія вочевидь хапається за соломинку, щоб повернути інтерес до свого чат-боту, який був високим у ті дні, коли ChatGPT вперше з'явився. Але для цього нам, ймовірно, знадобиться побачити справжній прорив, а не ще більше брехні, резюмували автори.

Раніше ми писали, що у пошукової системи Google з'явився дуже серйозний конкурент. Пошук ChatGPT без входу в систему робить його більш життєздатною альтернативою Google.

Джерело матеріала