OpenAI звинуватив розробників Grok 3 від xAI у публікації оманливих результатів тестування

24 лютого, 09:01

Дебати щодо контрольних показників штучного інтелекту — і того, як їх звітують лабораторії ШІ — виливаються на загальний огляд.

Цього тижня співробітник OpenAI звинуватив компанію Ілона Маска, що займається штучним інтелектом, xAI, у публікації оманливих результатів тестування своєї останньої моделі штучного інтелекту Grok 3. Один із співзасновників xAI Ігор Бабушкін наполягав , що компанія має рацію.

У дописі в блозі xAI компанія опублікувала графік, що показує продуктивність Grok 3 на AIME 2025, збірці складних математичних запитань з нещодавнього запрошення до іспиту з математики. Деякі експерти ставлять під сумнів достовірність AIME як еталона ШІ . З усім тим, AIME 2025 і старіші версії тесту зазвичай використовуються для перевірки математичних здібностей моделі.

Графік xAI показав два варіанти Grok 3, Grok 3 Reasoning Beta та Grok 3 mini Reasoning, перевершивши найефективнішу доступну модель OpenAI, o3-mini-high , на AIME 2025. Але співробітники OpenAI на X швидко зауважили, що графік xAI не включав оцінку o3-mini-high за AIME 2025 на «мінус@64».

Ви можете запитати, що таке cons@64? Ну, це скорочення від «consensus@64», і воно в основному дає модель 64, яка намагається відповісти на кожну проблему в контрольному тесті та приймає відповіді, які найчастіше генеруються, як остаточні відповіді. Як ви можете собі уявити, cons@64 має тенденцію значно підвищувати показники моделей у тестах, і якщо його виключити з графіка, може здатися, що одна модель перевершує іншу, хоча насправді це не так.

Оцінки Grok 3 Reasoning Beta та Grok 3 mini Reasoning для AIME 2025 на рівні «@1» — це означає, що перша оцінка, отримана моделями на еталонному тесті — падають нижче оцінки o3-mini-high. Grok 3 Reasoning Beta також трохи відстає від моделі OpenAI o1 , налаштованої на «середнє» обчислення. Проте xAI рекламує Grok 3 як «найрозумніший штучний інтелект у світі».

Бабушкін стверджував на X , що OpenAI публікував подібні оманливі діаграми бенчмарків у минулому — хоча діаграми порівнювали продуктивність власних моделей. Більш нейтральна сторона в дебатах склала більш «точний» графік, що показує продуктивність майже кожної моделі за cons@64:

Але, як зазначив дослідник штучного інтелекту Натан Ламберт у своєму дописі , чи не найважливіший показник залишається загадкою: обчислювальні (і грошові) витрати, які потрібні кожній моделі для досягнення найкращого результату. Це лише показує, як мало більшість тестів штучного інтелекту повідомляють про обмеження моделей — і їхні сильні сторони.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Microsoft Edge перетвориться на повноцінний агентський ШІ-браузер

24tv

4 хвилини тому

Microsoft Edge стає ШІ-браузером — порівняння товарів, допомога з вкладками та інше у Copilot Mode

ITC

7 хвилин тому

Кожен підробляє кожного: Сем Альтман з OpenAI попереджає про кризу шахрайства з застосуванням ШІ

ITC

7 хвилин тому

У зірки з найдивнішою фізикою виявлено "збій" у роботі: астрономи не можуть пояснити

Фокус

10 хвилин тому

Як зрозуміти, що смартфон давно пора замінити на новий: 9 головних ознак

InternetUA

14 хвилин тому

Нільс Бор переміг Ейнштейна: вчені створили дифракційну решітку з «заморожених» атомів, які розсіюють фотони по одному

ITC

21 хвилину тому

Камені Стоунгенджа могли переносити люди: вчені виявили несподівані докази

TSN

22 хвилини тому

Facebook посідає найгірше місце за кількістю онлайн-домагань, згідно з глобальним опитуванням активістів

InternetUA

24 хвилини тому

Люди скаржаться на найтонший смартфон Samsung: що з цим робити

Фокус

25 хвилин тому