Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести

20 листопада, 14:03

Найсучасніші моделі штучного інтелекту розв’язали лише 2% складних математичних задач, розроблених провідними математиками світу.

Дослідницький інститут Epoch AI представив новий набір тестів FrontierMath, який потребує докторського рівня математичних знань. До розробки залучили професорів математики, зокрема лауреатів Філдсівської премії Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести - Фото 2 Філдсівська премія (Fields Medal) — найпрестижніша міжнародна нагорода в математиці, яку вручають раз на чотири роки математикам віком до 40 років за видатні досягнення. Премію часто називають «математичним Нобелем».. На розв’язання таких задач у математиків-докторів може йти від кількох годин до днів.

Якщо у попередніх тестах MMLU Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести - Фото 4 MMLU (Measuring Massive Multitask Language Understanding) — це стандартний набір тестів для оцінки можливостей моделей штучного інтелекту. Тести охоплюють понад 57 предметних областей, включно з математикою, фізикою, історією, правом, медициною та іншими науками. Їх використовують для порівняння різних моделей ШІ та оцінки їхньої здатності розуміти та застосовувати знання в різних сферах. моделі ШІ успішно розв’язували 98% математичних задач шкільного та університетського рівня, то з новими завданнями ситуація кардинально інша.

«Ці завдання надзвичайно складні. Наразі їх можна розв’язати лише за участю фахівця у цій галузі або за допомогою аспіранта у суміжній сфері у поєднанні з сучасним ШІ та іншими алгебраїчними інструментами», — зазначив лауреат Філдсівської премії 2006 року Теренс Тао.

У дослідженні протестували шість провідних моделей ШІ. Gemini 1.5 Pro (002) від Google та Claude 3.5 Sonnet від Anthropic показали найкращий результат – 2% правильних відповідей. Моделі o1-preview, o1-mini та GPT-4o від OpenAI впоралися з 1% завдань, а Grok-2 Beta від xAI не змогла розв’язати жодної задачі.

FrontierMath охоплює різні математичні галузі – від теорії чисел до алгебраїчної геометрії. Усі тестові завдання доступні на вебсайті Epoch AI. Розробники створили унікальні задачі, яких немає у навчальних даних моделей ШІ.

Дослідники зазначають, що навіть коли модель надавала правильну відповідь, це не завжди свідчило про правильність міркувань – іноді результат можна було отримати через прості симуляції без глибокого математичного розуміння.

Спецпроєкти

Джерело: Livescience

Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести - Фото 6

Джерело матеріала

ITC

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Треба постаратися: десять предметів, які вам буде найважче отримати у відеоіграх

24tv

36 хвилин тому

Колишні працівники Google запускають персонального ШІ-помічника, схожого на Джарвіса з “Залізної людини”

InternetUA

53 хвилини тому

Камери Samsung Galaxy S25 Slim: деталі сенсорів 200+50+50 Мп та компактний перископ нової конструкції

ITC

55 хвилин тому

У соцмережах триває суперечка: чи можна ставити пральну машину на кухні

24tv

1 годину тому

Українська відеогра "S.T.A.L.K.E.R. 2: Серце Чорнобиля" очолила рейтинг продажів - її чекали 10 років

Комсомольская правда

1 годину тому

Повне зникнення Середземного моря: вчені повідомили про небезпеку

GlavRed

1 годину тому

Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести

Технології

Вирішує проблему сонячних панелей: вчені створили гібридний "нічний" генератор

Зламати дуже легко: який пароль найпопулярніший у світі

Apple скасувала безкоштовний ремонт MacBook з клавіатурою «метелик»

Треба постаратися: десять предметів, які вам буде найважче отримати у відеоіграх

Колишні працівники Google запускають персонального ШІ-помічника, схожого на Джарвіса з “Залізної людини”

Камери Samsung Galaxy S25 Slim: деталі сенсорів 200+50+50 Мп та компактний перископ нової конструкції

У соцмережах триває суперечка: чи можна ставити пральну машину на кухні

Українська відеогра "S.T.A.L.K.E.R. 2: Серце Чорнобиля" очолила рейтинг продажів - її чекали 10 років

Повне зникнення Середземного моря: вчені повідомили про небезпеку

Технології

Вирішує проблему сонячних панелей: вчені створили гібридний "нічний" генератор

Зламати дуже легко: який пароль найпопулярніший у світі

Apple скасувала безкоштовний ремонт MacBook з клавіатурою «метелик»

Треба постаратися: десять предметів, які вам буде найважче отримати у відеоіграх

Колишні працівники Google запускають персонального ШІ-помічника, схожого на Джарвіса з “Залізної людини”

Камери Samsung Galaxy S25 Slim: деталі сенсорів 200+50+50 Мп та компактний перископ нової конструкції

У соцмережах триває суперечка: чи можна ставити пральну машину на кухні

Українська відеогра "S.T.A.L.K.E.R. 2: Серце Чорнобиля" очолила рейтинг продажів - її чекали 10 років

Повне зникнення Середземного моря: вчені повідомили про небезпеку