Gemini від Google запанікував, граючи в Pokémon
Gemini від Google запанікував, граючи в Pokémon

Gemini від Google запанікував, граючи в Pokémon

Компанії, що займаються штучним інтелектом, борються за домінування в галузі, але іноді вони також змагаються в покемонських спортзалах.

Оскільки Google та Anthropic досліджують, як їхні новітні моделі штучного інтелекту орієнтуються в ранніх іграх про покемонів, результати можуть бути такими ж цікавими, як і повчальними — і цього разу Google DeepMind написав у звіті , що Gemini 2.5 Pro вдається до паніки, коли його покемони близькі до смерті. Це може призвести до того, що продуктивність штучного інтелекту зазнає «якісно спостережливого погіршення здатності моделі до міркування», йдеться у звіті.

Бенчмаркінг ШІ — або процес порівняння продуктивності різних моделей ШІ — це сумнівне мистецтво , яке часто дає мало контексту для фактичних можливостей даної моделі. Але деякі дослідники вважають, що вивчення того, як моделі ШІ грають у відеоігри, може бути корисним (або, принаймні, дещо кумедним).

Протягом останніх кількох місяців два розробники, не пов'язані з Google та Anthropic, створили відповідні трансляції на Twitch під назвою « Gemini Plays Pokémon » та « Claude Plays Pokémon », де кожен може в режимі реального часу спостерігати, як штучний інтелект намагається пройти дитячу відеогру, що вийшла понад 25 років тому.

Кожен потік відображає процес «міркування» ШІ — або переклад природною мовою того, як ШІ оцінює проблему та отримує відповідь — що дає нам уявлення про те, як працюють ці моделі.

Gemini від Google запанікував, граючи в Pokémon - Фото 1

Хоча прогрес цих моделей штучного інтелекту вражає, вони все ще не дуже добре справляються з грою в покемонів. Gemini потрібні сотні годин, щоб осмислити гру, яку дитина могла б пройти за експоненціально менший час.

Цікаво спостерігати за тим, як ШІ орієнтується в грі про покемонів, не стільки в часі її завершення, скільки в тому, як вона поводиться під час проходження.

«Під час проходження Gemini 2.5 Pro потрапляє в різні ситуації, які змушують модель імітувати «паніку»», – йдеться у звіті.

Такий стан «паніки» може призвести до погіршення продуктивності моделі, оскільки ШІ може раптово припинити використовувати певні інструменти, що є в його розпорядженні, протягом певного періоду ігрового процесу. Хоча ШІ не мислить і не відчуває емоцій, його дії імітують те, як людина може приймати погані, поспішні рішення під час стресу — захоплива, але водночас тривожна реакція.

«Така поведінка траплялася в достатній кількості окремих випадків, щоб учасники чату Twitch активно помічали, коли це відбувається», – йдеться у звіті.

Клод також демонстрував деяку цікаву поведінку під час своїх подорожей по Канто. В одному випадку ШІ помітив закономірність, що коли всі його покемони вичерпують здоров'я, персонаж гравця «втрачає зір» і повертається до Центру Покемонів.

Коли Клод застряг у печері гори Мун, він помилково припустив, що якщо навмисно довести всіх своїх покемонів до непритомності, то його перенесуть через печеру до Центру покемонів у наступному місті.

Однак, гра працює не так. Коли всі ваші покемони гинуть, ви повертаєтеся до того Центру покемонів, який ви використовували останнім, а не до найближчого географічно. Глядачі з жахом спостерігали, як ШІ фактично намагався вбити себе в грі.

Попри свої недоліки, є кілька способів, якими ШІ може перевершити гравців-людей. Станом на випуск Gemini 2.5 Pro, ШІ здатний вирішувати головоломки з винятковою точністю.

За допомогою людини штучний інтелект створив агентні інструменти — спровоковані екземпляри Gemini 2.5 Pro, спрямовані на виконання конкретних завдань — для вирішення валунових головоломок гри та пошуку ефективних маршрутів для досягнення пункту призначення.

«Маючи лише підказку, що описує фізику валунів, та опис того, як перевірити правильний шлях, Gemini 2.5 Pro здатний за один раз вирішити деякі з цих складних головоломок з валунами, які необхідні для проходження Дорогою Перемоги», – йдеться у звіті.

Оскільки Gemini 2.5 Pro виконала значну частину роботи зі створення цих інструментів самостійно, Google припускає, що поточна модель може бути здатною створювати ці інструменти без втручання людини. Хто знає, можливо, Gemini сама себе «підштовхне» до створення модуля «без паніки».

Источник материала
loader
loader