Нова версія Grok вразила користувачів своїм інтелектом

7 липня, 18:04

В інтернеті обговорюють можливі бенчмарки нової мовної моделі Grok 4 від xAI, компанії Ілона Маска. Дані опублікував X-аккаунт @legit_api, який раніше вже викладав підтверджені витоки по інших ШІ-сервісах. Якщо інформація вірна, Grok 4 показує вражаючі результати, особливо в завданнях, де потрібні логіка і розуміння, а не просто пошук інформації в інтернеті.

Найбільший інтерес викликали оцінки Grok 4 в бенчмарку Humanity Last Exam (HLE) — це 2500 складних питань з фізики, математики, права та інших дисциплін, які не можна просто знайти в пошуковій системі. Згідно з витоком, Grok 4 впорався з ними в півтора рази краще, ніж нинішні лідери на кшталт ChatGPT o3 і Gemini 2.5 Pro. В інших тестах — з програмування, біології та математики — його переваги більш скромні, але стабільні.

У бенчмарках фігурують дві версії Grok 4: звичайна і окрема модифікація, заточена під програмування. Також вказані два режими тестування — Standard і TTC. Перший ближче до реального використання, а другий показує теоретичний максимум, який можна вичавити з моделі при необмежених ресурсах.

Модель Grok 4 була спочатку представлена в квітні під назвою Grok 3.5, а потім перейменована. Маск обіцяв випустити її відразу, але пізніше визнав, що вона вимагає доопрацювання. Минулого тижня він заявив, що реліз відбудеться «після 4 липня». Поки цього не сталося.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Збирають дані для шантажу: росіяни створили Телеграм-бот, куди нібито можна скинути координати ТЦК

УкраинФорм

16 хвилин тому

Дослідження показало вбивцю інтимної близькості: ви витрачаєте на нього 2 доби на місяць

24tv

22 хвилини тому

Керівник Ford відверто висловився про вплив штучного інтелекту на робочі місця

Топ Жир

31 хвилину тому

Жорстокі ігри та шалена напруга: 4 трилери, які варто подивитися після "Гри в кальмара"

24tv

41 хвилину тому

Плануєте змінювати смартфон? Три основні моменти, які важливо врахувати перед покупкою

InternetUA

1 годину тому

Нова версія Grok вразила користувачів своїм інтелектом

Технології

Збирають дані для шантажу: росіяни створили Телеграм-бот, куди нібито можна скинути координати ТЦК

Дослідження показало вбивцю інтимної близькості: ви витрачаєте на нього 2 доби на місяць

Керівник Ford відверто висловився про вплив штучного інтелекту на робочі місця

Жорстокі ігри та шалена напруга: 4 трилери, які варто подивитися після "Гри в кальмара"

Плануєте змінювати смартфон? Три основні моменти, які важливо врахувати перед покупкою

Чому Wi-Fi погано ловить? Топ-5 несподіваних причин

Уявний час перестав бути лише математичною концепцією — нове відкриття фізиків

Чому ваш повербанк "помирає" завчасно: топ-8 шкідливих звичок

Ніхто не вірить: 17-місячна дитина стала зіркою інтернету за один рух

Технології

Збирають дані для шантажу: росіяни створили Телеграм-бот, куди нібито можна скинути координати ТЦК

Дослідження показало вбивцю інтимної близькості: ви витрачаєте на нього 2 доби на місяць

Керівник Ford відверто висловився про вплив штучного інтелекту на робочі місця

Жорстокі ігри та шалена напруга: 4 трилери, які варто подивитися після "Гри в кальмара"

Плануєте змінювати смартфон? Три основні моменти, які важливо врахувати перед покупкою

Чому Wi-Fi погано ловить? Топ-5 несподіваних причин

Уявний час перестав бути лише математичною концепцією — нове відкриття фізиків

Чому ваш повербанк "помирає" завчасно: топ-8 шкідливих звичок

Ніхто не вірить: 17-місячна дитина стала зіркою інтернету за один рух