У компаній штучного інтелекту закінчилися дані для навчання своїх моделей і вони «вичерпали» суму людських знань, заявив Ілон Маск .
Найбагатша людина світу припустив, що технологічним компаніям доведеться звернутися до «синтетичних» даних — або матеріалу, створеного моделями штучного інтелекту — для створення та тонкого налаштування нових систем, процес, який вже відбувається з технологіями, що швидко розвиваються.
Такі моделі штучного інтелекту, як модель GPT-4o, яка працює в чат-боті ChatGPT, «навчаються» на величезному масиві даних, отриманих з Інтернету, де вони фактично вчаться виявляти закономірності в цій інформації, що дозволяє їм передбачати, наприклад, наступний слово в реченні.
Виступаючи в інтерв’ю X, яке транслювалося в прямому ефірі на його платформі соціальних мереж, Маск сказав, що «єдиним способом» протистояти відсутності вихідного матеріалу для навчання нових моделей є перехід до синтетичних даних, створених ШІ.
Компанія Meta, власник Facebook і Instagram, використовувала синтетичні дані для точного налаштування своєї найбільшої моделі Llama AI, а Microsoft також використовувала створений штучним інтелектом контент для своєї моделі Phi-4. Google і OpenAI , компанія, що стоїть за ChatGPT, також використовували синтетичні дані у своїй роботі зі штучним інтелектом.
Однак Маск також попередив, що звичка моделей штучного інтелекту генерувати «галюцинації» — термін, що означає неточні або безглузді результати — становить небезпеку для обробки синтетичних даних.
Він сказав в прямому ефірі інтерв’ю з Марком Пенном, головою рекламної групи Stagwell, що галюцинації зробили процес використання штучного матеріалу «складним», тому що «як ви знаєте, чи це … галюцинація відповіді, чи це справжня відповідь».
Ендрю Дункан, директор базового відділу штучного інтелекту в Інституті Алана Тюрінга у Великій Британії, сказав, що коментар Маска узгоджується з нещодавньою науковою статтею, яка передбачає, що загальнодоступні дані для моделей ШІ можуть закінчитися вже у 2026 році. Він додав, що надмірна залежність від синтетичних даних ризикує «згортання моделі», термін, що стосується результатів моделей, якість яких погіршується.
«Коли ви починаєте годувати модель синтетичним матеріалом, ви починаєте отримувати зменшувану віддачу», — сказав він, ризикуючи тим, що результати будуть упередженими та позбавленими креативності.
Дункан додав, що зростання обсягу онлайн-контенту, створеного штучним інтелектом, також може призвести до того, що цей матеріал буде поглинено наборами навчальних даних ШІ.
Високоякісні дані та контроль над ними є одним із полів юридичної битви під час буму ШІ. Минулого року OpenAI визнав, що неможливо створити такі інструменти, як ChatGPT, без доступу до матеріалів, захищених авторським правом , тоді як творчі індустрії та видавці вимагають компенсації за використання їх результатів у процесі навчання моделей.