Асистент зі штучним інтелектом від китайського стартапу DeepSeek вперше випередив ChatGPT і став найпопулярнішою безплатною програмою в App Store у США, за даними Sensor Tower (через Reuters).
DeepSeek V3 — це модель з відкритим кодом, яка доволі гідно проявила себе в ключових тестах і показала, що може конкурувати з провідними моделями галузі, разом з тим показавши «покращення» у завданнях на логічне мислення. V3 використовує архітектуру Mixture-of-Experts (MoE) із загальною кількістю параметрів у 671 млрд, де 37 млрд активізуються для кожного токена (у попередниці V2, для порівняння було 236 млрд параметрів з активацією 21 млрд параметрів для кожного токена).
Цікаво, що DeepSeek V3 використовувала «кластер із понад 2000 чіпів Nvidia» — порівняно з десятками тисяч чипів для навчання моделей подібного розміру, на які американські компанії витрачають мільйони доларів.
Це також та сама модель, що вважала себе ChatGPT — тут пояснили, чому це відбувається.
В останні роки китайські техногіганти й стартапи випустили цілу низку моделей ШІ, однак саме DeepSeek вдалось завоювати увагу по всьому світу і спричинити паніку в офісах Кремнієвої долини. Днями компанія випустила у відкритому доступі модель міркування R1, чим підштовхнула OpenAI перенести свою модель o3-mini в безплатну версію ChatGPT.
У R1 також є власні рекорди — вона стала найпопулярнішою моделлю, яку завантажують на HuggingFace (понад 100 тис. завантажень на 25 січня). Також кілька днів тому незалежні аналітики з Chatbot Arena (платформи, організованої дослідниками Каліфорнійського університету в Берклі) додали моделі V3 і R1 у десятку найкращих за продуктивністю чат-ботів.