Новий тест AGI ставить у глухий кут більшість моделей штучного інтелекту
Новий тест AGI ставить у глухий кут більшість моделей штучного інтелекту

Новий тест AGI ставить у глухий кут більшість моделей штучного інтелекту

Arc Prize Foundation, некомерційна організація, співзасновником якої є відомий дослідник штучного інтелекту Франсуа Шолле, оголосила в блозі, що створила новий, складний тест для вимірювання загального інтелекту провідних моделей штучного інтелекту. Наразі новий тест під назвою ARC-AGI-2 поставив у глухий кут більшість моделей ШІ.

Згідно з таблицею лідерів премії Arc Prize , моделі штучного інтелекту, які розуміються, як-от o1-pro від OpenAI і R1 від DeepSeek, отримують від 1% до 1,3% на ARC-AGI-2. Потужні моделі без міркувань, зокрема GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Flash, отримують близько 1%.

Тести ARC-AGI складаються із задач, схожих на головоломки, де штучний інтелект має ідентифікувати візуальні моделі з колекції різноколірних квадратів і створити правильну сітку «відповідей». Проблеми були розроблені, щоб змусити ШІ адаптуватися до нових проблем, яких він раніше не бачив.

Фонд Arc Prize запропонував понад 400 людям пройти ARC-AGI-2, щоб встановити базову лінію для людини. У середньому «комісії» цих людей правильно відповіли на 60% запитань тесту — набагато краще, ніж оцінки будь-якої моделі.

Новий тест AGI ставить у глухий кут більшість моделей штучного інтелекту - Фото 1

У публікації на X Шолле стверджував, що ARC-AGI-2 є кращим показником фактичного інтелекту моделі ШІ, ніж перша ітерація тесту ARC-AGI-1. Тести Arc Prize Foundation спрямовані на оцінку того, чи може система штучного інтелекту ефективно отримувати нові навички за межами даних, на яких вона навчалася.

Шолле сказав, що на відміну від ARC-AGI-1, новий тест не дозволяє моделям ШІ покладатися на «грубу силу» — велику обчислювальну потужність — для пошуку рішень. Раніше Шолле визнав, що це головний недолік ARC-AGI-1.Новий тест AGI ставить у глухий кут більшість моделей штучного інтелекту - Фото 2

Щоб усунути недоліки першого тесту, ARC-AGI-2 вводить новий показник: ефективність. Він також вимагає від моделей інтерпретувати шаблони на льоту, а не покладатися на запам’ятовування.

«Інтелект визначається не лише здатністю вирішувати проблеми чи досягати високих результатів», — написав у блозі співзасновник Arc Prize Foundation Грег Камрадт . "Ефективність, з якою ці можливості набуваються та розгортаються, є вирішальним, визначальним компонентом. Основне питання, яке задають, не просто: "Чи може ШІ набути [] навичок для вирішення завдання?" але також «З якою ефективністю чи ціною?»

ARC-AGI-1 був неперевершений протягом приблизно п’яти років до грудня 2024 року, коли OpenAI випустив свою розширену модель міркування o3 , яка перевершила всі інші моделі штучного інтелекту та відповідала продуктивності людини в оцінці. Однак, як ми зазначали тоді, збільшення продуктивності o3 на ARC-AGI-1 супроводжувалося значною ціною .

Версія моделі OpenAI o3 — o3 (низький) — яка першою досягла нових висот на ARC-AGI-1, набравши 75,7% у тесті, отримала мізерні 4% на ARC-AGI-2, використовуючи обчислювальну потужність на суму 200 доларів на завдання.

Поява ARC-AGI-2 відбувається в той момент, коли багато представників індустрії технологій вимагають нових, ненасичених тестів для вимірювання прогресу ШІ. Співзасновник Hugging Face Томас Вулф нещодавно сказав TechCrunch, що індустрії штучного інтелекту не вистачає достатньо тестів для вимірювання ключових характеристик так званого штучного інтелекту , включаючи креативність.

Разом з новим тестом Arc Prize Foundation оголосив про новий конкурс Arc Prize 2025 , у якому розробники повинні досягти 85% точності в тесті ARC-AGI-2, витрачаючи при цьому лише 0,42 дол. США на завдання.

Источник материала
loader
loader