Штучний інтелект помиляється про джерела новин у 6 з 10 випадків, — дослідження
Columbia Journalism Review (CJR) спільно з Tow Center for Digital Journalism провели масштабне дослідження точності генеративних моделей штучного інтелекту, що використовуються для пошуку новин. Результати виявили серйозні проблеми: понад 60% відповідей цих інструментів містили помилки.
Про це повідомляє Ars Technica.
Дослідники протестували вісім популярних ШІ-інструментів, що пропонують пошук у реальному часі.
Рівень помилок серед них значно відрізнявся:
- ChatGPT припустився помилок у 67% випадків (134 із 200 відповідей);
- Grok 3 показав найгірший результат — 94% неправильних відповідей.
Для перевірки ефективності роботи таких ШІ вчені надали прямі уривки з реальних новинних статей, а потім попросили кожну модель визначити заголовок статті, оригінального видавця, дату публікації та URL-адресу. Вони зробили загалом 1600 таких запитів.
Експеримент показав, що моделі штучного інтелекту неправильно надавали джерела новин в середньому у понад 60% випадків.
Навіть коли ці пошукові інструменти штучного інтелекту посилалися на джерела, вони часто спрямовували користувачів на синдиковані версії вмісту на таких платформах, як Yahoo News, а не на сайти оригінальних видавців. Це траплялося навіть у випадках, коли видавці мали офіційні ліцензійні угоди з компаніями штучного інтелекту.
Іншою значною проблемою стало виявлення URL-адрес новин, на які ШІ посилається.
Замість того, щоб визнавати брак інформації, штучний інтелект часто вигадував відповіді, створюючи правдоподібні, але помилкові факти. Ця тенденція була характерною для всіх протестованих моделей.
Дослідження також показало, що деякі ШI-інструменти ігнорують протокол виключення роботів, який обмежує доступ до певного контенту. Наприклад, Perplexity успішно визначив 10 уривків із платного контенту National Geographic, хоча доступ до них мав бути закритим.
Інструменти Gemini й Grok 3 масово генерували неіснуючі URL-адреси. У випадку з Grok 3 з 200 перевірених посилань 154 виявилися помилковими або вели на неіснуючі сторінки.
Цікаво, що платні версії пошукових ШІ-сервісів, такі як Perplexity Pro ($20/міс.) і Grok 3 Premium ($40/міс.), мали ще гірші показники. Хоча вони давали більше правильних відповідей, їх схильність вигадувати інформацію була значно вищою.
Нагадаємо, що раніше чатбот зі штучним інтелектомGrok, розроблений компанією Ілона Маска xAI, відмовлявся відповідати на запити, в яких згадувалося, що джерела, пов’язані з Маском і Дональдом Трампом, поширюють дезінформацію.
Фото: MattLphotography/Alamy
До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування ідей та створення якісних матеріалів, просувати свідоме медіаспоживання і разом протистояти російській дезінформації.

