Маск називає Grok 4 найрозумнішим ШІ у світі, але тести вказують на іншого лідера

16 липня, 14:01

Навколо чатвота Grok завжди ажіотаж завдяки заявам Ілона Маска про його неперевершені можливості. Версія Grok 4, за словами Маска, стала найрозумнішим ШІ на планеті, проте останні рейтинги демонструють, що модель має серйозних конкурентів.

Чи справді Grok 4 найрозумніший ШІ?

Grok 4, розроблений компанією xAI, був представлений Ілоном Маском як революційний штучний інтелект, здатний перевершити більшість студентів у різних дисциплінах. За даними таблиці лідерів LMArena, розробленої Каліфорнійським університетом у Берклі, Grok 4 посів третє місце в загальному рейтингу та в категорії генерації тексту.

Хоча третє місце – це вражаючий результат, все ж це далеко від лідерства, як про це стверджував Маск. Grok 4 поступається моделям від Google та OpenAI. Зокрема, перше місце зайняла модель Gemini 2.5 від Google, а друге розділили між собою моделі o3 та 4o від OpenAI, тоді як GPT-4.5 розділив третю позицію з Grok 4.

Водночас важливо наголосити, що таблиця лідерів LMArena неодноразово зазнавала чимало критики через можливі недоліки в методології.

Дослідження, проведене групою експертів на чолі з компанією Cohere, вказує на систематичні проблеми, зокрема непрозоре тестування та можливість відкликання рейтингів (з його результатами можна ознайомитися на arxiv.org).

Також стало відомо, що версія моделі LLaMA 4 від Meta, яка використовувалася для оцінювання, відрізнялася від публічно доступної, що підірвало довіру до платформи. Це ставить під сумнів об’єктивність рейтингів, але навіть за таких умов Grok 4 не зміг очолити список.

А проте, такі таблиці лідерів, як LMArena, допомагають порівнювати ефективність різних моделей ШІ, хоча їхні результати не завжди є остаточними через суб’єктивність оцінок.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Grok більше не називатиме себе Гітлером: в Ілона Маска зробили нову заяву про ШІ

Фокус

5 хвилин тому

Під пекучим сонцем: британський тіктокер перевірив, чи вийде приготувати яєчню на асфальті

24tv

57 хвилин тому

Не купляйте новий комп'ютер: 3 варіанти, як подовжити нормальну роботу старої моделі

Фокус

1 годину тому

Люди масово спалюють свої Лабубу через моторошну теорію змови: про що йде мова

Фокус

1 годину тому

Користувач втратив близько $340 000 через підписання фішингової транзакції

InternetUA

1 годину тому

Маск називає Grok 4 найрозумнішим ШІ у світі, але тести вказують на іншого лідера

Чи справді Grok 4 найрозумніший ШІ?

Технології

Grok більше не називатиме себе Гітлером: в Ілона Маска зробили нову заяву про ШІ

SpaceX запустила у космос партію супутників для свого конкурента Amazon

Власникам доведеться міняти свої смартфони: що трапилося і кого це торкнеться

Пристрій розміром з волосину допоміг пояснити походження енергії Всесвіту

Starlink запустить супутники третього покоління у 2026 році

Під пекучим сонцем: британський тіктокер перевірив, чи вийде приготувати яєчню на асфальті

Не купляйте новий комп'ютер: 3 варіанти, як подовжити нормальну роботу старої моделі

Люди масово спалюють свої Лабубу через моторошну теорію змови: про що йде мова

Користувач втратив близько $340 000 через підписання фішингової транзакції

Технології

Grok більше не називатиме себе Гітлером: в Ілона Маска зробили нову заяву про ШІ

SpaceX запустила у космос партію супутників для свого конкурента Amazon

Власникам доведеться міняти свої смартфони: що трапилося і кого це торкнеться

Пристрій розміром з волосину допоміг пояснити походження енергії Всесвіту

Starlink запустить супутники третього покоління у 2026 році

Під пекучим сонцем: британський тіктокер перевірив, чи вийде приготувати яєчню на асфальті

Не купляйте новий комп'ютер: 3 варіанти, як подовжити нормальну роботу старої моделі

Люди масово спалюють свої Лабубу через моторошну теорію змови: про що йде мова

Користувач втратив близько $340 000 через підписання фішингової транзакції