7 липня 2021 року на ютуб-каналі «Дедлайн» відбувся марафон лекцій Ukraine Journalism AI Day про застосування штучного інтелекту в медіа. Цей проєкт — ініціатива керівника Центру журналістики Київської школи економіки Андрія Яніцького, який виграв грант House Of Europe. «Детектор медіа» занотував головне й найцікавіше, що було сказано під час марафону про штучний інтелект у медіа. Ми вже опублікували адаптовану лекцію керівника напрямку журналістики даних «Текстів» Анатолія Бондаренка. На черзі – виступ заступника декана факультету прикладних наук Українського католицького університету Олексія Молчановського. Слайди можна переглянути тут.
Дані — це нова нафта
Поняття «штучний інтелект» виникло в середині XX століття. Чому ми говоримо про розвиток штучного інтелекту саме в останні десять років? Бо зараз є дві основні складові розвитку цієї технології: великі обчислювальні потужності та дані. Третя складова — алгоритми, але їх основу заклали ще 50-60 років тому і з того часу вона майже не змінилася. Зараз багато алгоритмів доступні, великі компанії навіть публікують їх у відкритому коді, також можна отримати доступ до доволі дешевих обчислювальних потужностей, але дані є тією складовою, що вирішує все.
Існує вираз «data is new oil», тобто, дані — це нова нафта. Той, хто володіє даними, задає тренди. Якщо у вас є унікальні дані, на них ви можете побудувати унікальні рішення, сервіси та продукти. Тому дані дуже часто ховають за сімома замками. В індустрії є прислів'я «garbage in — garbage out»: сміття на вході, сміття на виході. Це означає, що, навіть якщо ви маєте добрий алгоритм, добрі обчислювальні потужності, але у вас на вході засмічені дані, то на виході ви також отримаєте погані результати.
Що вміє сучасний штучний інтелект?
Він заснований на тому, що алгоритми вчаться розпізнавати шаблони (pattern recognition). Друга складова — багатоітераційне навчання. Системам штучного інтелекту показують багато прикладів, щоб вони розпізнавали певні шаблони, і роблять це в десятки і сотні тисяч ітерацій. У такому випадку система починає не просто їх запам'ятовувати, а узагальнювати. Цим штучний інтелект і відрізняється від баз даних: він намагається вивести певні закономірності.
Тут треба зауважити, що в тому сенсі, який ми вкладаємо в це слово, системи штучного інтелекту нічого не розуміють. Вони просто бачать, як деякі сутності, речі, зображення, слова розташовані десь поруч в певному просторі. Наприклад, виявляючи шаблони в поняттях «Лобановський — Динамо», «Шевченко — збірна України», системи вчаться їх узагальнювати. Для зображень це працює як розпізнавання об'єктів, генерація зображень, перенесення стилю одного зображення на друге, синтез зображень на основі тексту. Що ж до роботи із текстами, то тут теж багато прикладів: технології для редагування текстів (граматичне, стилістичне виправлення), генерація текстів, чатботи, розпізнавання й транскрибування текстів.
У 1996 році чемпіон світу з шахів Гаррі Каспаров програв комп’ютеру IBM Deep Blue, у 2011 році система IBM Watson виграла в гру Jeopardy — і комп'ютер навіть не був під’єднаний до інтернету; він умів розпізнавати людську мову, переробляти її в запити до своєї бази даних і повертати змістовні речення. У 2016 році система Deep Mind AlphaGo виграла у тодішнього світового чемпіона з гри го.
Проблеми та виклики використання штучного інтелекту
Перша проблема — це маніпуляції даними. Зловмисники можуть отримати доступ до даних, внести туди пошкодження й система штучного інтелекту перестане працювати коректно. Наприклад, система розпізнавання зображень робить це на основі окремих пікселів, і якщо додати туди стороннє зображення, то система розпізнає неправильно.
Друга проблема — упередження у початкових даних. Наприклад, Amazon декілька років тому розробив програму, яка допомагає наймати людей. Програма отримувала анкети від кандидатів, робила перший скринінг на відповідність вимогам і передавала відібрані анкети до HR-фахівців. Проте система, будучи заснована на визначених попередніх даних, віддавала перевагу чоловікам, і навіть коли з цих попередніх даних забрали графу «стать», все одно знаходила подібні залежності. Тому зараз є великий напрямок в галузі дослідження штучного інтелекту про те, як вирівнювати ці упередження, як їх прибирати, як робити більш відповідальними системи, засновані на даних.
Третя проблема — це так званий ефект відлуння, коли, наприклад, ютубом поширюються різноманітні конспірологічні теорії тощо. Для монетизації сервісів потрібно, щоб людина довше дивилася відео, і система, націлена на це, намагається пропонувати вам саме такі відео. Зараз ютуб це виправив.
Четверта проблема — непрозорість отриманих результатів. Системи штучного інтелекту майже не використовуються в банківській галузі, бо якщо ви прийшли до банку, попросили кредит і банк вам відмовив, то в деяких країнах ви можете подати до суду і попросити пояснення, чому вам відмовили. Якщо банк не зможе надати зрозуміле, змістовне пояснення, він буде оштрафований. А в системах, заснованих на штучних нейронних мережах, де купа даних умовно закидаються в чорну коробку, жодна людина не зможе дати пояснення, чому результат саме такий.
І нарешті остання проблема — екстремальна спеціалізованість штучного інтелекту. Якщо він навчений грати в го, він не зможе грати в шахи; якщо його навчили розпізнавати один тип зображень, інший тип він не розпізнаватиме. Тобто, береться вузька задача, беруться дані під цю вузьку задачу і тренуються моделі. Немає узагальненого штучного інтелекту і ми ще дуже далекі від цього. Попри те, що ці технології доступні, для того, щоб тренувати ці моделі, потрібні величезні ресурси, якими володіють лише кілька корпорацій у світі.
Наприклад, система AlphaGo, про яку я вже згадував, грала сама з собою і зіграла 30 мільйонів партій. Очевидно, що людина за життя не може зіграти стільки. Другий приклад — модель GRT-3, яка вміє генерувати тексти. Для того, щоб її натренувати, знадобилось 45 терабайт текстів. Якщо це роздрукувати на сторінках A4, вийде 27,5 мільярдів сторінок. Не треба забувати і про вплив на середовище. Навчання однієї такої моделі, навіть найпростішої, спричиняє викид CO2 в атмосферу, співставний з тим, скільки за весь час своєї роботи викидає десяток автомобілів.
Штучний інтелект і журналістика
У першу чергу штучний інтелект використовується в журналістиці для автоматичної генерації контенту. Наприклад, спортивних новин: є шаблон для тексту про футбольний матч, треба тільки підставити інформацію, хто грав та хто виграв.
Також це пропонування текстів залежно від уподобань, передплати, які ШІ може допомагати робити (динамічний пейвол), пошук історій у даних і даних в історіях та, мабуть, найпотрібніший сервіс: автоматичне транскрибування інтерв'ю. Також штучний інтелект може використовуватись для модерації контенту й розпізнавання фейків.
Згідно з The Journalism AI Report за 2019 рік, The Wall Street Journal використовує штучний інтелект для динамічного пейволу, The Washington Post — для генерації коротких повідомлень про Олімпійські ігри, Bloomberg робить такі повідомлення для фінансового ринку. Для цього звіту опитали 71 медійну організацію і 68% з них зазначили, що використовують його, щоб зробити роботу журналістів більш ефективною, 45% — щоб робити контент, більш релевантний для споживача, а 20% — для загального покращення бізнесу.
Найбільшими викликами для впровадження штучного інтелекту називають відсутність достатніх фінансових ресурсів, відповідних знань та навичок, культурний спротив та брак знань про ці технології.
Чи замінить штучний інтелект журналістів?
На запитання «Чи ви хвилюєтесь щодо впливу штучного інтелекту на вашу журналістську роботу?» 60% опитаних The Journalism AI Report сказали, що їх це хвилює. Проте на думку Франческо Марконі, голови відділу досліджень The Wall Street Journal, викладача журналістики в Колумбійському університеті, машини заберуть на себе лише від 8 до 12% завдань репортерів. І це дозволить переорієнтувати журналістську роботу на ціннісний підхід: робити глибші тексти.
Важливо орієнтуватися на отримання нових навичок. Будуть з’являтись нові професійні ролі для роботи з автоматичними системами, моніторингу та контролю даних. Тому потрібно долати бар'єр страху математики, брати курси статистики, мати елементарні навички програмування й елементів лінгвістичної інженерії.
Також потрібно розвивати так зване обчислювальне мислення (computational thinking). Журналістам потрібно буде вести діалог із тими, хто розробляє штучний інтелект, і вони повинні розуміти, якою мовою ці люди розмовляють, як функціонують алгоритми, з чого вони складаються, і не боятися ставити запитання.