Компанії Apple, NVIDIA та Anthropic використовували стенограми відео з YouTube для навчання своїх моделей ШІ, не звертаючись за дозволом до платформи. Про це йдеться у розслідуванні видання Proof News.
Провідні IT-компанії навчали свої моделі штучного інтелекту на наборі даних «Ютуб субтитри» з 173 536 відео, отриманих із понад 48 тис. ютуб-каналів.
У згадуваному наборі даних Proof News виявило стенограми відео з освітніх та онлайн-навчальних каналів, таких як Khan Academy, MIT і Harvard. Також використоувалися відео медіа The Wall Street Journal, The New York Times, ABC News, NPR, BBC та найпопулярніших ютуб-блогерів, зокрема MrBeast (289 млн підписників), Marques Brownlee (19 млн підписників), Jacksepticeye (майже 31 млн підписників) і PewDiePie (111 млн підписників). До слова, у наборі окрім іншого виявили й відео, які пропагають різні теорії змови, зокрема про теорію «плоскої» Землі.
Набір даних для навчання ШІ-моделей створила некомерційна організація EleutherAI. На своєму сайті вона повідомила, що загальна мета її діяльності - знизити бар’єри на шляху розробки штучного інтелекту для тих, хто знаходиться поза когортою IT-гігантів, й вона надає «доступ до передових технологій штучного інтелекту шляхом навчання та випуску моделей». Набори даних EleutherAI доступні та відкриті для будь-кого в Інтернеті, у кого є достатньо місця та обчислювальної потужності для доступу до них.
Згідно з дослідницькою статтею, опублікованою EleutherAI, набір стенограм відео з ютуба є частиною набору даних під назвою Pile. До нього також включили публікації з сайту Європейського парламенту, англомовної Вікіпедії та безліч електронних листів співробітників Enron Corporation, які були опубліковані в межах федерального розслідування щодо фірми.
Компанії Apple, Nvidia та Salesforce у своїх дослідницьких та офіційних публікаціях зазначали, що використовували Pile для навчання ШІ, те саме зробила й Anthropic.
Засновник EleutherAI Сід Блек написав на GitHub, що створив «Ютуб субтитри» за допомогою сценарію. Цей сценарій завантажує субтитри з API ютуба так само, як браузер глядача відеоплатформи завантажує їх під час перегляду відео. Відповідно до документації на GitHub, Блек використовував 495 пошукових термінів, щоб вилучити невідповідні відео, включаючи «кумедні відеоблогери», «Ейнштейн», «чорношкірий протестант», «захисні соціальні служби», «інфовійни», «квантова хромодинаміка», «Бен Шапіро» «Уйгури», «фрукти», «рецепт торта», «лінії Наска» та «плоска земля».
Хоча умови використання «Ютуба» забороняють доступ до його відео «автоматичними засобами», понад 2 тис. користувачів GitHub додали в закладки або схвалили код Сіда Блека.
Автори розслідування провели експеримент: пов’язали субтитри з набору даних Pile із відео на «Ютубі», щоб визначити, чий творчий матеріал використовувався для навчання моделей ШІ. Вони знайшли докази того, що компанії зі штучним інтелектом використовували ці дані в офіційних документах і публікаціях в Інтернеті. Навчальні дані містили 173 536 відео з ютуба, з яких понад 12 тис. уже видалені з платформи, проте доступні для використання моделями ШІ.
Представник Google Джек Мелон у відповіді електронною поштою на запит про коментар заявив, що компанія протягом багатьох років вживала заходів, щоб запобігти образливому несанкціонованому копіюванню. Він не відповів на запитання щодо використання іншими компаніями матеріалу як даних для навчання.
Тим часом у коментарі виданню Engadget з тієї ж теми представник Google повідомив, що попередні заяви генерального директора «Ютуба» Ніла Мохана про те, що компанії, які використовують дані відеоплатформи для навчання моделей штучного інтелекту, порушуватимуть умови використання платформи, залишаються актуальними.
До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування ідей та створення якісних матеріалів, просувати свідоме медіаспоживання і разом протистояти російській дезінформації.