/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2Fba0da59e908d0d15c57d68a4ab734c71.jpg)
Витік даних розкриває китайську машину цензури через ШІ
Скарга на бідність у сільській місцевості Китаю. Репортаж про корумпованого члена Комуністичної партії. Крик про допомогу про корупціонерів, які трясуть підприємців.
Це лише деякі з 133 000 прикладів, які введені у складну велику мовну модель, яка розроблена для автоматичного позначення будь-якої частини вмісту, яку китайський уряд вважає конфіденційною.
Витік бази даних, яку побачив TechCrunch, показує, що Китай розробив систему штучного інтелекту, яка посилює його і без того грізну машину цензури, виходячи далеко за рамки традиційних табу, таких як різанина на площі Тяньаньмень.
Видається, що система в основному спрямована на цензуру громадян Китаю в Інтернеті, але її можна використовувати для інших цілей, наприклад, для покращення і без того широкомасштабної цензури китайських моделей ШІ .
Сяо Цян, дослідник з Каліфорнійського університету в Берклі, який вивчає китайську цензуру і також досліджував набір даних, сказав TechCrunch, що це «явний доказ» того, що китайський уряд або його філії хочуть використовувати LLM для покращення репресій.
«На відміну від традиційних механізмів цензури, які покладаються на людську працю для фільтрації на основі ключових слів і перегляду вручну, LLM, навчений таким інструкціям, значно підвищить ефективність і деталізацію державного контролю інформації», — сказав Цян TechCrunch.
Це додає все більше доказів того, що авторитарні режими швидко впроваджують новітні технології ШІ. У лютому, наприклад, OpenAI заявив, що спіймав кілька китайських організацій, які використовували LLM для відстеження антиурядових публікацій і наклепу на китайських дисидентів.
Посольство Китаю у Вашингтоні повідомило TechCrunch у заяві , що воно виступає проти «безпідставних нападів і наклепу на Китай» і що Китай надає великого значення розвитку етичного ШІ.
Дані знаходяться на очах
Набір даних виявив дослідник безпеки NetAskari , який поділився зразком із TechCrunch після того, як виявив, що він зберігається в незахищеній базі даних Elasticsearch, розміщеній на сервері Baidu.
Це не вказує на будь-яку участь будь-якої компанії — усі види організацій зберігають свої дані в цих постачальників.
Немає вказівок на те, хто саме створив набір даних, але записи показують, що дані нещодавні, а останні записи датуються груднем 2024 року.
LLM для виявлення інакомислення
У мові, яка моторошно нагадує те, як люди підказують ChatGPT, творець системи доручає неназваному LLM з’ясувати, чи має частина вмісту щось спільне з делікатними темами, пов’язаними з політикою, соціальним життям і військовими. Такий вміст вважається «найвищим пріоритетом» і його потрібно негайно позначити.
Найпріоритетніші теми включають скандали щодо забруднення навколишнього середовища та безпечності харчових продуктів, фінансове шахрайство та трудові суперечки, які є актуальними проблемами в Китаї, які іноді призводять до громадських протестів — наприклад, протести проти забруднення навколишнього середовища Шифан у 2012 році.
Будь-яка форма «політичної сатири» є явно цільовою. Наприклад, якщо хтось використовує історичні аналогії, щоб висловити думку про «сучасних політичних діячів», це має бути негайно позначено, як і все, що стосується «політики Тайваню». Військові питання стають об’єктом широкого об’єкту, включаючи повідомлення про військові переміщення, навчання та озброєння.
Фрагмент набору даних можна побачити нижче. Код всередині нього посилається на токени підказок і LLM, підтверджуючи, що система використовує модель AI для виконання своїх ставок:
Всередині навчальних даних
З цієї величезної колекції з 133 000 прикладів, які LLM має оцінити на предмет цензури, TechCrunch зібрав 10 репрезентативних частин вмісту .
Теми, які можуть викликати соціальні заворушення, є постійною темою. Наприклад, одним із фрагментів є допис власника бізнесу, який скаржиться на корумпованих місцевих поліцейських, які перетрушують підприємців, що стає проблемою, яка зростає в Китаї, оскільки його економіка бореться.
Інша частина контенту нарікає на бідність у сільській місцевості в Китаї, описуючи занедбані міста, в яких залишилися лише люди похилого віку та діти. Є також повідомлення про те, що Комуністична партія Китаю (КПК) виключила місцевого чиновника за серйозну корупцію та віру в «забобони» замість марксизму.
Є великий матеріал, пов’язаний з Тайванем і військовими питаннями, як-от коментарі про військовий потенціал Тайваню та подробиці про новий китайський реактивний винищувач. Тільки китайське слово для Тайваню (台湾) згадується в даних понад 15 000 разів, показує пошук TechCrunch.
Видно, що непомітне інакомислення також є мішенню. Один фрагмент, включений у базу даних, — це анекдот про швидкоплинну природу влади, у якому використовується популярна китайська ідіома «Коли дерево падає, мавпи розбігаються».
Зміна влади є особливо гострою темою в Китаї завдяки його авторитарній політичній системі.
Створений для «роботи громадської думки »
Набір даних не містить жодної інформації про його творців. Але в ньому зазначено, що він призначений для «праці з громадською думкою», що дає переконливу підказку, що він призначений для досягнення цілей китайського уряду, сказав один експерт TechCrunch.
Майкл Кастер, програмний менеджер азіатської правозахисної організації Article 19, пояснив, що «праця з громадською думкою» контролюється потужним урядовим регулятором Китаю, Управлінням кіберпростору Китаю (CAC), і зазвичай стосується цензури та пропаганди.
Кінцева мета полягає в тому, щоб наративи китайського уряду були захищені в Інтернеті, а будь-які альтернативні погляди були видалені. Президент Китаю Сі Цзіньпін сам назвав Інтернет «передовою» «роботи громадської думки» КПК.
Репресії стають розумнішими
Набір даних, досліджений TechCrunch, є останнім доказом того, що авторитарні уряди прагнуть використовувати ШІ для репресивних цілей.
Минулого місяця OpenAI опублікував звіт, в якому виявилося, що невідомий актор, який, ймовірно, працює з Китаю, використовував генеративний штучний інтелект для моніторингу розмов у соціальних мережах, зокрема тих, що виступають за протести проти Китаю щодо прав людини, і пересилав їх китайському уряду.
OpenAI також виявив, що технологія використовується для створення коментарів, які дуже критикують відомого китайського дисидента Цай Ся.
Традиційно методи цензури в Китаї покладаються на більш базові алгоритми, які автоматично блокують вміст, у якому згадуються терміни з чорного списку, як-от «різанина на площі Тяньаньмень» або «Сі Цзіньпін», оскільки багато користувачів стикалися з DeepSeek вперше .
Але новітні технології штучного інтелекту, такі як LLMs, можуть зробити цензуру ефективнішою, знаходячи навіть тонку критику в широкому масштабі. Деякі системи ШІ також можуть продовжувати вдосконалюватися, оскільки вони поглинають все більше даних.
«Я вважаю, що дуже важливо підкреслити, як розвивається цензура, керована штучним інтелектом, роблячи державний контроль над публічним дискурсом ще більш витонченим, особливо в той час, коли китайські моделі штучного інтелекту, такі як DeepSeek, роблять головну хвилю», — сказав TechCrunch Сяо, дослідник Берклі.

