Старшокласник створив веб-сайт, що дозволяє кинути виклик ШІ на створення Minecraft
Старшокласник створив веб-сайт, що дозволяє кинути виклик ШІ на створення Minecraft

Старшокласник створив веб-сайт, що дозволяє кинути виклик ШІ на створення Minecraft

Оскільки звичайні методи порівняльного аналізу штучного інтелекту виявляються неадекватними, розробники штучного інтелекту звертаються до більш творчих способів оцінки можливостей генеративних моделей штучного інтелекту. Для однієї групи розробників це Minecraft, гра для створення пісочниці, що належить Microsoft.

Веб-сайт Minecraft Benchmark (або MC-Bench) був розроблений спільно, щоб протистояти моделям штучного інтелекту одна одній у прямих змаганнях, щоб відповідати на підказки за допомогою творів Minecraft. Користувачі можуть проголосувати за те, яка модель впоралася краще, і лише після голосування вони зможуть побачити, який ШІ створив кожну збірку Minecraft.

Старшокласник створив веб-сайт, що дозволяє кинути виклик ШІ на створення Minecraft - Фото 1

Для Аді Сінгха, 12-класника, який створив MC-Bench, цінність Minecraft полягає не стільки в самій грі, скільки в тому, що люди з нею знайомі — зрештою, це найбільш продавана відеогра всіх часів. Навіть для людей, які не грали в гру, все одно можна оцінити, яке блокове зображення ананаса краще реалізоване.

«Minecraft дозволяє людям набагато легше бачити прогрес [розробки ШІ]», — сказав Сінгх TechCrunch. «Люди звикли до Minecraft, звикли до зовнішнього вигляду та атмосфери».

Наразі MC-Bench зазначає вісім осіб, які зробили внесок у волонтерство. Згідно з веб-сайтом MC-Bench, Anthropic, Google, OpenAI і Alibaba субсидували використання їхніх продуктів у проекті для запуску тестів, але ці компанії не пов’язані іншим чином.

«Наразі ми просто створюємо прості збірки, щоб зрозуміти, як далеко ми просунулися від епохи GPT-3, але [ми] можемо побачити, що масштабуємося до цих довгострокових планів і цілеспрямованих завдань», — сказав Сінгх. «Ігри можуть бути просто засобом перевірки агентських міркувань, який є безпечнішим, ніж у реальному житті, і більш керованим для цілей тестування, що робить його більш ідеальним, на мій погляд».

Інші ігри, такі як Pokémon Red ,  Street Fighter і Pictionary, використовувалися як експериментальні тести для ШІ, частково через те, що мистецтво порівняння ШІ, як відомо, складне .

Дослідники часто перевіряють моделі штучного інтелекту на основі стандартизованих оцінок , але багато з цих тестів дають штучному інтелекту перевагу домашнього поля. Завдяки тому, як їх навчають, моделі від природи наділені певними вузькими видами розв'язування проблем, особливо тих, які потребують механічного запам’ятовування або базової екстраполяції.

Простіше кажучи, важко зрозуміти, що означає те, що GPT-4 OpenAI може досягти 88-го процентиля в LSAT, але не може розрізнити, скільки Rs містить слово «полуниця». Claude 3.7 Sonnet від Anthropic досяг 62,3% точності за стандартизованим тестом програмної інженерії, але він гірший у грі в покемонів, ніж більшість п’ятирічних дітей.

Технічно MC-Bench є тестом програмування, оскільки моделі просять написати код для створення запропонованої збірки, як-от «Сніговик Фрості» або «чарівна тропічна хатинка на пляжі на незайманому піщаному березі».

Але більшості користувачів MC-Bench легше оцінити, чи сніговик виглядає краще, ніж копатися в коді, що надає проекту ширшої привабливості — і, отже, потенціалу для збору більше даних про те, які моделі стабільно мають кращі результати.

Звичайно, питання про те, чи суттєво ці оцінки впливають на корисність штучного інтелекту, залишається предметом дискусій. Однак Сінгх стверджує, що це сильний сигнал.

«Поточна таблиця лідерів досить точно відображає мій власний досвід використання цих моделей, який відрізняється від багатьох чисто текстових тестів», — сказав Сінгх. «Можливо, [MC-Bench] може бути корисним для компаній, щоб дізнатися, чи рухаються вони в правильному напрямку».

Джерело матеріала
loader
loader