/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F82a0b553f187017c408b763bac274445.jpg)
Нова версія Grok вразила користувачів своїм інтелектом
В інтернеті обговорюють можливі бенчмарки нової мовної моделі Grok 4 від xAI, компанії Ілона Маска. Дані опублікував X-аккаунт @legit_api, який раніше вже викладав підтверджені витоки по інших ШІ-сервісах. Якщо інформація вірна, Grok 4 показує вражаючі результати, особливо в завданнях, де потрібні логіка і розуміння, а не просто пошук інформації в інтернеті.
Найбільший інтерес викликали оцінки Grok 4 в бенчмарку Humanity Last Exam (HLE) — це 2500 складних питань з фізики, математики, права та інших дисциплін, які не можна просто знайти в пошуковій системі. Згідно з витоком, Grok 4 впорався з ними в півтора рази краще, ніж нинішні лідери на кшталт ChatGPT o3 і Gemini 2.5 Pro. В інших тестах — з програмування, біології та математики — його переваги більш скромні, але стабільні.
У бенчмарках фігурують дві версії Grok 4: звичайна і окрема модифікація, заточена під програмування. Також вказані два режими тестування — Standard і TTC. Перший ближче до реального використання, а другий показує теоретичний максимум, який можна вичавити з моделі при необмежених ресурсах.
Модель Grok 4 була спочатку представлена в квітні під назвою Grok 3.5, а потім перейменована. Маск обіцяв випустити її відразу, але пізніше визнав, що вона вимагає доопрацювання. Минулого тижня він заявив, що реліз відбудеться «після 4 липня». Поки цього не сталося.

