Обидві нові моделі штучного інтелекту OpenAI галюцинують більше, ніж їхні попередники
Обидві нові моделі штучного інтелекту OpenAI галюцинують більше, ніж їхні попередники

Обидві нові моделі штучного інтелекту OpenAI галюцинують більше, ніж їхні попередники

Ще більше дезінформації

Нещодавно представлені моделі штучного інтелекту o3 та o4-mini від OpenAI демонструють суттєвий прогрес у сфері міркувань. Проте з цим прогресом з’явилась і несподівана проблема – обидві моделі галюцинують частіше, ніж старіші версії. Йдеться про схильність вигадувати факти, і це стосується навіть завдань, де точність критично важлива, повідомляє 24 Канал з посиланням на TechCrunch.

Історично OpenAI вдавалося зменшити кількість помилкових відповідей з кожною новою ітерацією своїх моделей. Але з o3 та o4-mini ситуація інша – згідно з внутрішніми тестами компанії, ці нові “міркувальні” моделі частіше видають неточні твердження, ніж їхні попередники, зокрема o1, o1-mini і o3-mini, а також GPT-4o, що не належить до лінійки міркувальних моделей.

Найбільша проблема – OpenAI поки що не знає, чому це відбувається. У технічному звіті компанія визнає, що необхідні додаткові дослідження, щоб зрозуміти, чому масштабування міркувальних моделей викликає зростання галюцинацій. При цьому o3 та o4-mini дійсно краще справляються з певними завданнями – наприклад, у сфері програмування чи математичних обчислень. Але через більшу кількість генерованих тверджень збільшується як частка правильних відповідей, так і помилкових.

Незалежне дослідження лабораторії Transluce підтверджує ці висновки. У тестах виявлено, що o3 іноді описував неіснуючі дії. Наприклад, модель стверджувала, що запускала код на MacBook Pro 2021 року “поза межами ChatGPT” і потім копіювала цифри до відповіді – хоча вона технічно не має таких можливостей.

На думку дослідника Transluce Ніла Чоудхурі, причина може бути в особливостях підкріплювального навчання, яке використовують для серії "o". Цей підхід, імовірно, підсилює деякі проблеми, які зазвичай згладжуються під час післятренувальних етапів.

Інша співзасновниця Transluce, Сара Шветтманн, зазначила, що високий рівень галюцинацій у o3 знижує його практичну цінність. Хоча деякі користувачі визнають переваги o3 у програмуванні, вони також стикаються з фальшивими посиланнями, які генерує модель.

Проблема неточностей створює бар’єри для впровадження таких моделей у критично важливі сфери, як юридичні послуги, де помилки можуть мати серйозні наслідки. Водночас, як зазначає OpenAI, одним із можливих рішень є інтеграція моделей із системами веб-пошуку. Наприклад, GPT-4o, що має доступ до пошукових можливостей, досягає 90% точності в тесті SimpleQA. Такий підхід може зменшити кількість галюцинацій – хоча він і передбачає взаємодію зі сторонніми сервісами, що не завжди прийнятно для всіх користувачів.

OpenAI визнає, що зменшення галюцинацій – це складне і пріоритетне завдання. За словами представника компанії Ніко Фелікса, дослідження в цьому напрямку тривають, і мета – підвищити точність та надійність усіх моделей.

У 2024 році вся індустрія ШІ переорієнтувалася на моделі з міркуванням, оскільки звичайні методи покращення моделей почали давати менше результатів. Моделі міркування забезпечують вищу продуктивність при менших ресурсах. Проте ці переваги можуть затьмаритися, якщо галюцинації залишаться на високому рівні. І тоді пошук ефективного способу боротьби з ними стане ще більш нагальним.

Теги по теме
Техно
Источник материала
loader
loader