/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F0a128b383566dc04c748e34d0d695cb6.jpg)
Маск називає Grok 4 найрозумнішим ШІ у світі, але тести вказують на іншого лідера
Навколо чатвота Grok завжди ажіотаж завдяки заявам Ілона Маска про його неперевершені можливості. Версія Grok 4, за словами Маска, стала найрозумнішим ШІ на планеті, проте останні рейтинги демонструють, що модель має серйозних конкурентів.
Чи справді Grok 4 найрозумніший ШІ?
Grok 4, розроблений компанією xAI, був представлений Ілоном Маском як революційний штучний інтелект, здатний перевершити більшість студентів у різних дисциплінах. За даними таблиці лідерів LMArena, розробленої Каліфорнійським університетом у Берклі, Grok 4 посів третє місце в загальному рейтингу та в категорії генерації тексту.
Хоча третє місце – це вражаючий результат, все ж це далеко від лідерства, як про це стверджував Маск. Grok 4 поступається моделям від Google та OpenAI. Зокрема, перше місце зайняла модель Gemini 2.5 від Google, а друге розділили між собою моделі o3 та 4o від OpenAI, тоді як GPT-4.5 розділив третю позицію з Grok 4.
Водночас важливо наголосити, що таблиця лідерів LMArena неодноразово зазнавала чимало критики через можливі недоліки в методології.
Дослідження, проведене групою експертів на чолі з компанією Cohere, вказує на систематичні проблеми, зокрема непрозоре тестування та можливість відкликання рейтингів (з його результатами можна ознайомитися на arxiv.org).
Також стало відомо, що версія моделі LLaMA 4 від Meta, яка використовувалася для оцінювання, відрізнялася від публічно доступної, що підірвало довіру до платформи. Це ставить під сумнів об’єктивність рейтингів, але навіть за таких умов Grok 4 не зміг очолити список.
А проте, такі таблиці лідерів, як LMArena, допомагають порівнювати ефективність різних моделей ШІ, хоча їхні результати не завжди є остаточними через суб’єктивність оцінок.
