Майкрософт шукає спосіб зарахування тих, хто сприяє навчанню ШІ
Майкрософт шукає спосіб зарахування тих, хто сприяє навчанню ШІ

Майкрософт шукає спосіб зарахування тих, хто сприяє навчанню ШІ

Microsoft запускає дослідницький проект, щоб оцінити вплив конкретних навчальних прикладів на текст, зображення та інші типи медіа, які створюють генеративні моделі ШІ.

Відповідно до списку, який шукає стажера-дослідника, проєкт намагатиметься продемонструвати, що моделі можна навчити таким чином, щоб можна було «ефективно та корисно оцінити» вплив певних даних — наприклад, фотографій і книг — на їхні результати.

«Поточні архітектури нейронних мереж непрозорі з погляду забезпечення джерел для своїх поколінь, і є […] вагомі причини змінити це», — йдеться в списку. «[По-перше,] стимули, визнання та потенційна оплата для людей, які вносять певні цінні дані в непередбачені види моделей, які ми захочемо в майбутньому, припускаючи, що майбутнє нас фундаментально здивує».

Генератори тексту, коду, зображень, відео та пісень на основі штучного інтелекту знаходяться в центрі низки позовів щодо інтелектуальної власності проти компаній ШІ. Часто ці компанії навчають свої моделі на величезних обсягах даних із загальнодоступних веб-сайтів, деякі з яких захищені авторським правом. Багато компаній стверджують, що  доктрина добросовісного використання  захищає їхні практики збору даних і навчання. Але творчі люди — від художників до програмістів і авторів — здебільшого не згодні.

Сама Microsoft стикається щонайменше з двома судовими викликами з боку власників авторських прав.

У грудні New York Times подала до суду на технологічного гіганта та його колишнього партнера OpenAI, звинувативши дві компанії в порушенні авторських прав The Times шляхом застосування моделей, навчених на мільйонах її статей. Кілька розробників програмного забезпечення також подали позов проти Microsoft, стверджуючи, що помічник із кодування GitHub Copilot AI незаконно навчався з використанням їхніх захищених робіт.

Як повідомляється, у новій дослідницькій діяльності Microsoft, яка в списку описується як «походження під час навчання», бере участь Джарон Ланьє, досвідчений технолог і міждисциплінарний вчений Microsoft Research. У квітневій статті 2023 року в The New Yorker Ланьє писав про концепцію «гідності даних», яка для нього означала зв’язок «цифрового матеріалу» з «людьми, які хочуть бути відомими за те, що вони це зробили».

«Підхід до оцінки даних відстежував би найбільш унікальних і впливових учасників, коли велика модель забезпечує цінний результат», — написав Ланьє. "Наприклад, якщо ви запитаєте модель про "анімаційний фільм про моїх дітей у світі, намальованому олією, де коти, які розмовляють у пригодах", тоді певні провідні художники, художники, портретисти котів, актори озвучування та письменники – або їхні маєтки – можуть бути враховані як винятково важливі для створення нового шедевра. Вони будуть визнані та мотивовані. Їм навіть можуть заплатити".

Не дарма вже кілька компаній намагаються це зробити. Розробник моделей штучного інтелекту Bria, який нещодавно залучив 40 мільйонів доларів венчурного капіталу, стверджує, що «програмно» компенсує власникам даних відповідно до їхнього «загального впливу». Adobe і Shutterstock також надають регулярні виплати тим, хто додає дані, хоча точні суми виплат, як правило, непрозорі.

Небагато великих лабораторій запровадили індивідуальні програми виплат для учасників поза межами ліцензійних угод рукопису з видавцями, платформами та брокерами даних. Натомість вони надали можливість власникам авторських прав «відмовитися» від навчання. Але деякі з цих процесів відмови є обтяжливими та стосуються лише майбутніх моделей, а не тих, які пройшли навчання.

Звичайно, проєкт Microsoft може бути лише доказом концепції. Для цього є прецедент. Ще в  травні OpenAI заявила, що розробляє подібну технологію, яка дозволить творцям визначати, як вони хочуть, щоб їхні роботи були включені в навчальні дані або виключені з них. Але майже рік потому цей інструмент ще не побачив світ, і всередині компанії він часто не вважався пріоритетним.

Можливо, Microsoft також намагається« відмити етику » тут — або запобігти регулятивним та/або судовим рішенням, які руйнують її бізнес ШІ.

Але те, що компанія досліджує способи відстеження навчальних даних, помітно в світлі нещодавно висловленої позиції інших лабораторій ШІ щодо добросовісного використання. Кілька провідних лабораторій, у тому числі Google і OpenAI, опублікували політичні документи, в яких рекомендують адміністрації Трампа послабити захист авторських прав, які стосуються розробки ШІ. OpenAI прямо закликав уряд США кодифікувати добросовісне використання для навчання моделей, що, на його думку, звільнить розробників від обтяжливих обмежень.

Джерело матеріала
loader