/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F18ce1fa794542ab2d4d3e2f2cde1b7fd.jpg)
ШІ-боту ChatGPT не можна довіряти: він бреше у 37% випадків, хоча й коштує мільярди доларів
Цікаво, що o3-mini від OpenAI, дешевша і зменшена версія GPT-4o, "галюцинує" у 80,3% випадків.
Використовуючи SimpleQA, інструмент для оцінки фактів, компанія OpenAI визнала, що її нова велика мовна модель (ВММ) GPT-4.5 "галюцинує", тобто ШІ видає вигадки за факти в 37% випадків, пише futurism.com.
ШІ-модель від компанії, яка коштує сотні мільярдів доларів, бреше більш ніж в одній із трьох відповідей, які вона дає. OpenAI намагається представити проблему "брехні" GPT-4.5 як щось хороше, стверджуючи, що цей чат-бот не "галюцинує" так часто, як БЯМ від інших компаній.
На графіку показано, як часто нова ШІ-модель бреше. Також відомо, що GPT-4o, нібито вдосконалена модель "міркувань", "галюцинує" у 61,8% випадків, що вдалося з'ясувати завдяки перевірці фактів SimpleQA. Було виявлено, що o3-mini від OpenAI, дешевша та зменшена версія GPT-4o, "галюцинує" у 80,3% випадків.
Звичайно, ця проблема не унікальна для OpenAI, пише ЗМІ.
"Наразі навіть найкращі моделі можуть генерувати текст без "галюцинацій" тільки в 35% випадків", — пояснив Вентінг Чжао, докторант Корнельського університету. — "Найважливіший висновок із нашої роботи з перевірки фактів полягає в тому, що ми поки що не можемо повністю довіряти результатам генерації".
Крім недовіри до компанії, яка отримує сотні мільярдів доларів інвестицій у продукти, у яких є такі проблеми, це багато що свідчить про індустрію ШІ загалом, — що саме нам продають? Дорогі, ресурсомісткі системи, які мають наближатися до людського рівня інтелекту, але все ще не можуть правильно розуміти основні факти, нарікають автори матеріалу.
Оскільки БЯМ OpenAI перестають рости в продуктивності, компанія вочевидь хапається за соломинку, щоб повернути інтерес до свого чат-боту, який був високим у ті дні, коли ChatGPT вперше з'явився. Але для цього нам, ймовірно, знадобиться побачити справжній прорив, а не ще більше брехні, резюмували автори.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F63%2Fd732ba33fa9ec6218b55ddd6b2bc6eb4.jpg)
В NASA зафиксировали в океане гигантскую форму жизни: ее видно даже из космоса
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F63%2F6f7c65e6d29a0079dd6f314678877f13.jpg)
Apple готовит технологию управления iPhone с помощью мозга - СМИ
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F2%2F1735cefdb742f2170c907576e9eafa9f.jpg)
В Великобритании нашли скульптуру богини победы возрастом более 1800 лет
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F2%2Fd0611f0e0a7f2d63d1253c3d237f3dc9.jpg)
Команда с украинцем выиграла в Казахстане турнир по Counter-Strike 2
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F2%2Fb2841a3585c2b9d9546b15f1a4c71337.jpg)
Xiaomi представила свой самый большой флагманский планшет
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F2%2Fc002a0b74cf1f1cd27afd1dbcdf85685.jpg)
AMD представила новую бюджетную игровую видеокарту
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F63%2F84326088208790dd0f60f14ba8791660.jpg)