Штучний інтелект розв’язує лише 2% складних математичних задач
Штучний інтелект розв’язує лише 2% складних математичних задач

Штучний інтелект розв’язує лише 2% складних математичних задач

Найпередовіші моделі штучного інтелекту поки що не можуть скласти конкуренцію людському розуму в розв’язанні складних математичних задач, повідомляє Livescience. Згідно з дослідженням інституту Epoch AI, тест FrontierMath показав, що моделі ШІ розв’язали лише 2% завдань, створених провідними математиками світу.

Що таке FrontierMath

Новий тест FrontierMath розробили для перевірки здатності ШІ вирішувати завдання докторського рівня. Над створенням задач працювали професори математики, включаючи лауреатів Філдсівської премії.

«Ці завдання надзвичайно складні. Наразі їх можна розв’язати лише за участю фахівця у цій галузі або за допомогою аспіранта у суміжній сфері у поєднанні з сучасним ШІ та іншими алгебраїчними інструментами». 
Теренс Тао, лауреат Філдсівської премії 2006 року

До тесту увійшли завдання з теорії чисел, алгебраїчної геометрії та інших галузей. Їх немає у навчальних даних сучасних моделей ШІ, що забезпечує чесність оцінювання.

Якими були результати тестування

Шість провідних моделей ШІ протестували на FrontierMath:

  • Gemini 1.5 Pro (002) від Google і Claude 3.5 Sonnet від Anthropic змогли розв’язати 2% задач.
  • o1-preview, o1-mini, GPT-4o від OpenAI показали результат у 1% правильних відповідей.
  • Grok-2 Beta від xAI взагалі не змогла розв’язати жодної задачі.

Навіть коли моделі знаходили правильні відповіді, це не завжди свідчило про глибоке математичне розуміння. Дослідники зазначають, що деякі результати були отримані через симуляції або обчислювальні алгоритми без справжньої аналітичної роботи.

Джерело матеріала
loader
loader