
ШІ-боту ChatGPT не можна довіряти: він бреше у 37% випадків, хоча й коштує мільярди доларів
Цікаво, що o3-mini від OpenAI, дешевша і зменшена версія GPT-4o, "галюцинує" у 80,3% випадків.
Використовуючи SimpleQA, інструмент для оцінки фактів, компанія OpenAI визнала, що її нова велика мовна модель (ВММ) GPT-4.5 "галюцинує", тобто ШІ видає вигадки за факти в 37% випадків, пише futurism.com.
ШІ-модель від компанії, яка коштує сотні мільярдів доларів, бреше більш ніж в одній із трьох відповідей, які вона дає. OpenAI намагається представити проблему "брехні" GPT-4.5 як щось хороше, стверджуючи, що цей чат-бот не "галюцинує" так часто, як БЯМ від інших компаній.
На графіку показано, як часто нова ШІ-модель бреше. Також відомо, що GPT-4o, нібито вдосконалена модель "міркувань", "галюцинує" у 61,8% випадків, що вдалося з'ясувати завдяки перевірці фактів SimpleQA. Було виявлено, що o3-mini від OpenAI, дешевша та зменшена версія GPT-4o, "галюцинує" у 80,3% випадків.
Звичайно, ця проблема не унікальна для OpenAI, пише ЗМІ.
"Наразі навіть найкращі моделі можуть генерувати текст без "галюцинацій" тільки в 35% випадків", — пояснив Вентінг Чжао, докторант Корнельського університету. — "Найважливіший висновок із нашої роботи з перевірки фактів полягає в тому, що ми поки що не можемо повністю довіряти результатам генерації".
Крім недовіри до компанії, яка отримує сотні мільярдів доларів інвестицій у продукти, у яких є такі проблеми, це багато що свідчить про індустрію ШІ загалом, — що саме нам продають? Дорогі, ресурсомісткі системи, які мають наближатися до людського рівня інтелекту, але все ще не можуть правильно розуміти основні факти, нарікають автори матеріалу.
Оскільки БЯМ OpenAI перестають рости в продуктивності, компанія вочевидь хапається за соломинку, щоб повернути інтерес до свого чат-боту, який був високим у ті дні, коли ChatGPT вперше з'явився. Але для цього нам, ймовірно, знадобиться побачити справжній прорив, а не ще більше брехні, резюмували автори.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F9%2Feb2f71421cfeb9be810af0005b4c05e6.jpg)
Связь будет даже при блэкаутах: как продлить заряд батареи на смартфоне
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F46%2Fccb03612425a144cc1ff19903cdb87a5.png)
Pornhub остановил показ порно в одной из стран Европы: какая причина
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F9%2F2265cc5aab09d4a03d0862a9eb943f69.jpg)
В Украине могут начаться отключение мобильной связи: причины и продолжительность
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F2%2Faa90f5d8777fb698abce70e2691381a0.jpg)
ГУР "выключил" сервисы российской железной дороги
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F118%2F4a3c786f34b1de6faaf3bea867abac93.jpg)
Миф, кровь и судьба: Состоялся официальный анонс Resonance: A Plague Tale Legacy — приквела A Plague Tale: Requiem

Анонсировано продолжение High On Life — релиз в этом году
