Інтернет заражено ШІ-сміттям: вчені попереджають про загрозу “колапсу моделей”

18 червня, 12:04

Бурхливе поширення генеративного штучного інтелекту — на чолі з ChatGPT та його численними конкурентами — створило серйозну проблему: інтернет настільки перенасичений машинним контентом, що це вже починає шкодити подальшому розвитку самих ШІ-моделей. Про це йдеться в аналітичному матеріалі видання The Register, яке порівнює ситуацію з ядерним забрудненням сталевих конструкцій після 1945 року.

Проблема полягає в так званому “зворотному навчанні”: сучасні моделі ШІ дедалі частіше навчаються не на оригінальних текстах, створених людьми, а на вже згенерованих іншими ШІ. Це призводить до ефекту “зіпсованого телефону” — повторне відтворення й обробка синтетичного контенту знижує якість генерації, роблячи самі моделі дедалі менш точними, релевантними й “розумними”. У галузі це явище вже називають “колапсом моделей” (model collapse).

Як зазначає дослідник Центру вивчення екзистенційних ризиків Кембриджського університету Моріс Кіодо, нині надзвичайно цінним стає “чисте” текстове середовище, яке передує 2022 року — часу появи масових чатботів. Це нагадує ситуацію з “низькофоновою сталлю”, яку використовують у медицині та фізиці, адже тільки сталь, виготовлена до перших ядерних вибухів 1945 року, не містить радіоактивних домішок. І сьогодні її здобувають зі старих військових кораблів часів Першої і Другої світових воєн.

За словами Кіодо, саме до 2022 року більшість цифрових текстів ще не мали ШІ-змісту. Вся інформація після цієї межі потенційно “забруднена”. Це може мати серйозні наслідки для конкуренції між розробниками: ті, хто першими зібрали великі обсяги “чистих” даних, отримали значну перевагу над іншими. Якщо ж процес збирання даних повториться знову, але вже із “зараженого” інтернету, то майбутні моделі працюватимуть ще гірше.

Проблема вже проявилася в такій популярній технології як retrieval-augmented generation (RAG) — коли моделі ШІ підтягують актуальну інформацію з інтернету для формування відповідей. Але оскільки сама ця інформація може бути створена іншими ШІ, результат стає менш надійним, а іноді — навіть небезпечним.

Цей феномен пов’язаний із загальною кризою масштабування: провідні гравці, включно з OpenAI, ще в 2024 році повідомили про зменшення ефективності нових моделей навіть при значному збільшенні обчислювальної потужності. І якщо тренувальні дані дедалі частіше містять «сміттєвий» ШІ-вміст — стіна, у яку вперся розвиток галузі, лише укріплюється.

На думку Кіодо, хоча маркування ШІ-вмісту могло б допомогти “очистити” інформаційне середовище, ефективно реалізувати таке регулювання складно. Як зазначає співавтор дослідження Рупрехт Подзун з Дюссельдорфського університету, індустрія наразі чинить спротив будь-якому втручанню держави, вважаючи його загрозою інноваціям.

Втім, якщо проблему ігнорувати, саме ШІ-індустрія може стати жертвою власного успіху — втопивши себе в лавині синтетичного контенту, який позбавляє її основного ресурсу: людських знань.

Джерело матеріала