Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані
Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 1

DeepSeek-R1 — нова генеративна модель штучного інтелекту, розроблена китайським стартапом DeepSeek. Вона викликала значний резонанс, оскільки позиціюється як конкурент провідних моделей, таких як OpenAI o1. При цьому DeepSeek-R1 має відкритий код та економічно більш ефективна ніж більшість ШІ-моделей на ринку. Розбираємось, як китайцям це вдалося. І чи все так просто…

Штучний інтелект від DeepSeek випередив ChatGPT у рейтингу App Store, обвалив акції Nvidia на 12%, а Meta та Microsoft — на 4%. Європейські компанії ASML та Tokyo Electron також зазнали втрат. Попадали й повя’зані з ШІ та майнінгом криптовалюти. І це далеко не все, що буквально за тиждень встиг наробити китайський ШІ.

Згідно з даними консалтингової компанії Preqin, інвестиції США в штучний інтелект у 2023 році перевищували вкладення КНР у шість разів, і складали $26,6 млрд проти $4 млрд. Як же так вийшло, що Китай за неповних два роки зміг обігнати американців?

OpenAI і Google не розкривали точну вартість навчання моделей ШІ (а це найскладніша найкропіткіша частина роботи), таких як GPT-4 і Gemini. Але очевидно, що це страшенно дорогий бізнес. Коли OpenAI випустила GPT-3 у 2020 році, хмарний провайдер Lambda припустив, що навчання цієї моделі зі 175 млн параметрів коштувало понад $4,6 млн з використанням хмарного інстансу Tesla V100. OpenAI не розголошує розмір GPT-4, який вона випустила рік тому, але у звітах проносяться дані про від 1 трильйона до 1,8 трильйона параметрів.

До того ж генеральний директор OpenAI Сем Альтман невиразно оцінив вартість навчання в «понад» $100 млн. Генеральний директор Anthropic Даріо Амодей припустив, що «до 2025 року ми можемо мати модель вартістю $10 млрд».

Звіт Epoch AI від травня 2024 року щодо оцінки технічної сторони показав, що обсяги навчальних обчислень передових моделей ШІ зростають у 4-5 разів на рік. Так ось, згідно з середніми оцінками, вартість навчання найдорожчих моделей ШІ до 2030 року (без урахування зарплати дослідників) сягне $140 млрд.

Спецпроєкти

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 2А ось трохи про сам час навчання. Якби використовувалась машина Exaflop, то GPT-3 (зі 175 мільярдами параметрів) зі складністю навчання порядку 3,14×10²³, то потрібно було б 314 000 секунд обчислювальних циклів, щоб завершити навчання з 300 мільярдами токенівРозбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 3Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 4Токен — одиниця тексту, яку модель використовує для обробки інформації. У контексті природної мови, це може бути: слово, частина слова, символ або знак пунктуації. Це приблизно 3,5 дні.

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 5

Якщо OpenAI використовувала у своєму суперкомп’ютері графічні процесори Nvidia V100, то для завершення навчання GPT-4 потрібно близько 5-6 місяців.

Тобто, найдорожчий, найскладній і найдовший процес створення моделі — це саме підготовка даних, на яких її навчатимуть.

І тут на арену виходить DeepSeek, яка каже, що розробила V3 всього за 2 місяці і витратила лише $5.6 млн. При цьому поки провідні команії використовують до 16 000 інтегральних схем, китайці — лише близько 2 000 чіпів NVIDIA H800 PCIe. А деякі версії моделей DeepSeek можна запускати локально. Як це можливо?!

Зміст

  • 1 Технологія та принципи роботи DeepSeek R1
  • 2 Ось як працює MoE
  • 3 DeepSeek vs. OpenAI vs. Anthropic vs. Google
  • 4 Усі «за» та «проти»
  • 5 Перегони штучного інтелекту: США vs Китай (і десь там ЄС)

Технологія та принципи роботи DeepSeek R1

Все почалось з того, що у листопаді 2023 року з’явилась модель DeepSeek-Coder з відкритим вихідним кодом, а потім — DeepSeek-LLM, яка на додачу вміла генерувати текст. У квітні 2024 року світ побачила оновлена версія DeepSeek-Coder під назвою DeepSeek-Math. В тому ж році вийшли два оновлення DeepSeek-LLM: V2 та V2.5. У листопаді з’явилась попередня версія DeepSeek R1, основою якої послужив DeepSeek-V3-Base. Наприкінці року вийшла DeepSeek-V3  — оновлення DeepSeek-V2, — і вже на її основі створили DeepSeek R1, який і наробив шуму на початку 2025 року.

Спецпроєкти

DeepSeek-V3 навчали на 14,8 трлн токенів, а DeepSeek R1 — на навчальних даних DeepSeek-V3-Base та ще близько 800 тис. зразків. Запити на R1 коштують на 98% дешевше, ніж на ChatGPT. Попри обмеження США на експорт потужних чипів, DeepSeek використав доступні Nvidia H800 та якісь свої власні інновації.

При цьому генеративна модель ШІ DeepSeek-R1 має відкритий код та продуктивність на рівні закритих моделей, такими як o1 від OpenAI.

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 6
Порівняння тестів DeepSeek з іншими моделями. Джерело: github.com/deepseek-ai

DeepSeek R1 базується на великій базовій моделі під назвою DeepSeek-V3, та використовує архітектуру Mixture of Experts (MoE), що дозволяє ефективно обробляти складні завдання, активуючи лише частину своїх параметрів під час обчислень. Загальна кількість параметрів становить 671 мільярд (модель займає 400 ГБ), але під час обробки кожного запиту активується лише близько 37 мільярдів, що надає баланс між продуктивністю та ефективністю. Тобто, економить час та ресурси.

Для цього створюються підмоделі, що мають різну експертність (мікс експертів). І вже залежно від запиту користувача активуються лише потрібні експерти, і саме між ними розподіляються ресурси.

Ось як працює MoE

Архітектура MoE (яка, до речі, може бути частиною ШІ-агентів) складається з декількох незалежних нейромережевих експертів, які спеціалізуються на різних аспектах обробки даних. Основні компоненти цієї архітектури:

Гейтинг-мережа (Gating Network)

  • Особливий модуль, який визначає, які експерти будуть активовані для кожного окремого запиту.
  • Гейтинг-мережа аналізує вхідні дані та розподіляє їх між кількома експертами.

Експерти (Experts)

  • Це окремі нейромережі, які навчаються обробляти певні типи даних або виконувати певні завдання.
  • Вони можуть спеціалізуватися, наприклад, на розпізнаванні мовних патернів, аналізі логічних зв’язків чи генерації тексту.

Об’єднання результатів (Weighted Summation)

  • Після того, як експерти виконують свої обчислення, їхні результати комбінуються у фінальну відповідь моделі.

Таким чином, MoE використовує лише частину експертів під час обчислень, що дозволяє зменшити витрати на інференс (роботу моделі, її міркування). Також експерти можуть спеціалізуватися на різних типах задач, що робить MoE потужнішим за традиційні трансформерні моделі (як ChatGPT). Крім того, збільшення кількість експертів не вимагає значного збільшення витрат на навчання. Однак при використанні MoE необхідно правильно налаштовувати гейтинг-мережу, щоб уникнути надмірного використання деяких експертів, коли це не потрібно. Навіть якщо активується лише частина експертів, вся модель повинна зберігатися у пам’яті.

DeepSeek R1 використовує MoE-архітектуру з 64 експертами, з яких активується лише 2 або 4 під час обробки кожного запиту.

Також важливою особливістю DeepSeek R1 є її здатність генерувати «ланцюжок думок» (Chain of Thought, CoT) перед формуванням відповіді. Цей підхід дозволяє моделі покращити точність та логічність своїх відповідей, особливо у складних завданнях, що вимагають багатокрокового міркування.

Цікаво, що DeepSeek-R1 готували за допомогою навчання з підкріпленням (reinforcement learning) без попереднього етапу контрольованого тонкого налаштування. Цей підхід дозволив моделі розвивати навички міркування та прийняття рішень на основі зворотного зв’язку, що робить її здатною до складних логічних висновків та генерації зв’язного тексту

Для підвищення ефективності та зменшення вимог до обчислювальних ресурсів розробники застосували метод дистиляції, який передбачає створення спрощених версій моделі. Вони зберігають основні можливості оригіналу, але мають меншу кількість параметрів. Зокрема, створили моделі на основі Llama (LLM від Meta AI) та Qwen (LLM від Alibaba) з 32 та 70 мільярдами параметрів.

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 7

Дистильовані версії можна розгорнути локально, на власному обладнанні:

Є ще декілька версій, які ви можете знайти та завантажити за цим посиланням.

DeepSeek vs. OpenAI vs. Anthropic vs. Google

DeepSeek R1 найчастіше порівнюють з моделлю OpenAI o1. За продуктивністю вона демонструє схожі результати у завданнях з математики, кодування та міркування. Однак, китайська модель досягає цих результатів при значно менших витратах. Використання DeepSeek R1 коштує приблизно $0,55 за мільйон токенів, тоді як OpenAI o1 — близько $15 за той самий обсяг.

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 8

Як зазначив Андрій Никоненко, Machine Learning & Data Science в Turnitin, незалежні перевірки показали, що GPT-4o1 трохи перевершує DeepSeek-R1. Свіжі Anthropic Claude Sonnet 3.5 і Google Gemini 2.0 кращі ніж DeepSeek-V3.

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 9

Разом з тим, DeepSeek-R1 та V3 — сильні моделі з відкритим вихідним кодом, що встановили новий високий базовий рівень для LLM, та перевершуючи моделі LLaMA. Крім того, R1 може стати новим еталоном для моделей міркувань з відкритим вихідним кодом, що зробить недорогий виробничий ШІ більш доступним.

Усі «за» та «проти»

Почнемо з хорошого:

  • DeepSeek-R1 є повністю відкритою моделлю з ліцензією MIT, що дозволяє розробникам вільно використовувати, модифікувати та інтегрувати її у свої проєкти.
  • Ціна. Вартість використання поки що поза конкуренцією.
  • Китайська модель доступна у різних варіаціях, включно зі спрощеними дистильованими версіями. Це означає, що якщо у вас є декілька NVIDIA GeForce RTX 3090, ви можете запустити модель вдома. І не потрібно буде платити OpenAI за доступ. Достатньо просто встановити Ollama, завантажити DeepSeek і все! Наприклад, DeepSeek 671B (з 671 мільярдом параметрів) змогли запустити на сервері AmpereOne A192. Модель працює зі швидкістю 4 токени на секунду. Споживання енергії склало лише кілька сотень ват, що робить її досить ефективною.

Таким чином, звичайні користувачі можуть насолоджуватись конкуренцією, яка робить технології більш доступними. Нещодавній випуск ШІ-моделі Sky-T1, яка також здатна розмірковувати та коштує лише $450, показав, що потужні моделі можуть бути економічно ефективними.

Поява DeepSeek-R1 підштовхнула OpenAI до відкриття загального доступу до потужних моделей і зниження цін на деякі послуги.

А тепер до поганого.

Не варто забувати, що DeepSeek-R1 — модель штучного інтелекту з Китаю. Тому при її використанні слід бути обережним. Китайські гаджети вже неодноразово попадались на крадіжці інформації своїх власників. Як і очікувалось, з DeepSeek також не все гаразд. Нещодавно Wiz Research з’ясувала, що база даних компанії-розробника DeepSee була відкритою для доступу в Інтернеті не мала належного захисту. Це дозволяло будь-кому отримати доступ до понад мільйона записів, включно з історією чатів користувачів, API-ключів та інших системних параметрів.

Найголовніше те, що ця вразливість дозволяла повністю контролювати базу даних і потенційну підвищення привілеїв в середовищі DeepSeek, без будь-якої автентифікації або механізму захисту від зовнішнього світу.

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 10

Дослідники Wiz виявили цю вразливість, помітивши відкриті порти 8123 і 9000 на серверах DeepSeek, що вказувало на публічно доступний інтерфейс бази даних ClickHouse. Після повідомлення про проблему компанія DeepSeek закрила доступ до інтерфейсів. Але невідомо, скільки даних сторонні особи встигли скопіювати.

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 11

Також деякі дослідження показали, що DeepSeek-R1 може поширювати інформацію, яка відповідає офіційній позиції Пекіна, і не завжди надає точні дані. DeepSeek уникає відповідей на 85% запитань на «чутливі теми», пов’язані з Китаєм.

Наприклад, при обговоренні політично чутливих тем, таких як події на площі ТяньаньменьРозбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 12Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 13Події на площі Тяньаньмень 1989 року — серія демонстрацій в КНР, що тривали з 15 квітня по 4 червня 1989, головними учасниками яких були студенти. Події також відомі як «Події 4 червня у Китаї» та «Різанина на площі Тяньаньмень». Найбільший резонанс викликав силовий розгін демонстрантів 4 червня із застосуванням армійських підрозділів, в результаті чого загинули тисячі протестувальників. або статус Тайваню, модель може відображати упередженість або уникати відповіді (що власне і бачимо на скриншоті нижче).

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 14

Крім того, існують побоювання щодо конфіденційності даних користувачів. Вже є інформація, що DeepSeek збирає дані про користувачів, включно з апаратним забезпеченням: IP-адреси, моделі телефонів, мову, навіть «схеми натискання клавіш або ритми». А потім надсилає на сервери в Китай.

Крім того, ще на момент запуску DeepSeek-V3 з’явились підозри у крадіжці даних у OpenAI. Під час тестування китайська ШІ-модель називала себе ChatGPT. Пізніше один з розробників ChatGPT заявив, що DeepSeek використала дані OpenAI для дисциляції. Також колишній розробник Meta Яншун Тай помітив підозрілу сумісніть бібліотек DeepSeek та OpenAI. Таким чином, китайська компанія заощадила тижні розробки клієнтських бібліотек Node.js і Python просто використавши бібліотеки OpenAI.

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 15

Варто пам’ятати, що компанія DeepSeek — відносно новий гравець у сфері штучного інтелекту. Згідно з Вікіпедією, її засновано у квітні-травні 2023 року. Стратегія найму компанії фокусується на технічних здібностях, а не на досвіді роботи, що призводить до того, що робоча сила складається переважно з недавніх випускників або розробників з менш усталеною кар’єрою в галузі ШІ.

Новини про технічну та фінансову вигоду ШІ-моделей DeepSeek призвели до того, що багато організацій та стартапів поспішили впровадити ці інструменти у свої продукти. Однак, забули, що подібні кроки також передбачають передачу конфіденційних даних. А це вимагає високого ступеня довіри…

Перегони штучного інтелекту: США vs Китай (і десь там ЄС)

У 1956 році під час Дартмутської конференції в США було вперше введено термін «штучний інтелект» (ШІ). Ця подія стала відправною точкою для активних досліджень у цій галузі. До речі, саме цій конференції ми зобов’язані появою тесту Тюрінга. Алан Тьюринг, британський математик, запропонував ідею тесту, який дав би змогу визначити, чи може машина демонструвати розумну поведінку, яку неможливо відрізнити від людської.

Так ось, у 2017 році Китай оголосив про свій план стати світовим лідером у сфері ШІ до 2030 року. Значні фінансові вливання в дослідження та розвиток цієї ніші, а також підтримка з боку уряду сприяли швидкому прогресу. Китайські компанії Baidu, Alibaba (куди входить і всім відомий AliExpress) та Tencent, активно розпочали розробку ШІ-технологій, а уряд впроваджує ШІ у різні сфери, включно з безпекою та охороною здоров’я.

Наприкінці свого президентства Джо Байден підписав указ про сприяння швидшому створенню у США комп’ютерних центрів обробки даних та іншої інфраструктури для розробок у сфері штучного інтелекту. З приходом до влади Дональда Трампа у 2025 році, він заявили про намір вивести США у лідери ШІ-технологій. Вже стартував проєкт під назвою Stargate, який очолюють OpenAI, японський конгломерат SoftBank та Oracle. Він передбачає інвестиції в у розмірі $500 млрд у розвиток інфраструктури штучного інтелекту (ШІ) в США, та побудову протягом наступних 4 років 10 центрів обробки даних у Техасі, потім — й в інших штатах.

І ось буквально пару тижнів по тому вийшов DeepSeek R1. Оскільки ця модель здатна робити те саме, що й o1, але безоплатно, OpenAI змушена розглянути зниження вартості підписки на ChatGPT Plus вдвічі: до $10. На фоні загостренні перегонів з Китаєм, OpenAI навіть надала державним установам США спеціальний доступ до своїх моделей з виділеною інфраструктурою: ChatGPT Gov.

І тут прилетів другий удар. Китайська компанія-гігант Alibaba випустила власну генеративну ШІ-модель під назвою Qwen2.5-Max. І стверджує, що вона краще за DeepSeek V3.

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 16

Тим часом Європейський Союз намагається не відставати від конкурентів. У 2023 році було ухвалено Закон ЄС про штучний інтелект (AI Act), який набув чинності 1 серпня. Він встановлює правила для розробки та використання ШІ, спрямовані на забезпечення безпеки та етичності технологій. Що ж до перегонів у сфері технологій штучного інтелекту, поки США та Китай активно вкладають гроші та показують результати, ЄС лише розпочала програму «спрощення», щоб скоротити бюрократію та стимулювати інновації.

Наприкінці січня 2025 опубліковано документ Єврокомісії під назвою «Компас конкурентоспроможності», в якому викладено економічний план розвитку ЄС на наступні 5 років, включно з заходами, спрямованими на розвиток «зелених» технологій, штучного інтелекту та квантових обчислень. В ньому запропоновано створити «Гігафабрики ШІ», які дозволять стартапам і дослідникам навчати і розробляти моделі. Окрема стратегія буде спрямована на розвиток цієї ШІ-технології в таких секторах, як виробництво, автомобілебудування та фінансові послуги. Пропозиції включають також ініціативи, спрямовані на розвиток біотехнологій, робототехніки та космічних технологій.

Голова виконавчої влади ЄС Урсула фон дер Ляєн підкреслила, що бізнес-модель ЄС протягом останніх 20-25 років покладалася на «дешеву робочу силу з Китаю, ймовірно, дешеву енергію з росії» і «частково на аутсорсинг безпеки», але «ці дні минули».

30 січня Єврокомісія ухвалила п’яту річну Робочу програму в рамках Європейського оборонного фонду (EDF 2025), виділивши понад 1 млрд євро на спільні оборонні науково-дослідні і дослідно-конструкторські проєкти. Робоча програма EDF 2025 охоплює технологічний виклик у сфері штучного інтелекту, а також запит на проведення науково-дослідних і дослідно-конструкторських робіт (НДДКР) «для сприяння синергії між цивільними та оборонними інноваціями, зосередившись цього року на космосі, енергетичній стійкості, наземних боях і кіберпросторі».

Перегони у сфері ШІ з кожним днем набирають обертів. Поки США лідирують у фундаментальних дослідженнях та розробці інноваційних технологій, Китай робить акцент на масштабному впровадженні ШІ у різні галузі, використовуючи переваги великого обсягу даних та швидкого впровадження. ЄС, як завжди, пасе задніх.

Розбираємось із DeepSeek: безплатний аналог ChatGPT, але відповідає наче китайський комуніст, та не захищає дані - Фото 17
Теги за темою
Євросоюз Китай
Джерело матеріала
loader