Не може міркувати — проста математична задача «зламала» штучний інтелект
Не може міркувати — проста математична задача «зламала» штучний інтелект

Не може міркувати — проста математична задача «зламала» штучний інтелект

Нове дослідження виявило, що великі мовні моделі штучного інтелекту «міркують» набагато гірше, ніж очікувалось. Команда компанії Apple запропонувала вирішити просту математичну задачу, з якою моделі ШІ не змогли впоратися. Про це повідомляє Futurism.

Для дослідження вчені більш детально вивчили бенчмарк GSM8K, широко використовуваний набір даних, який використовується для вимірювання навичок міркування штучного інтелекту, що складається з тисяч математичних текстових завдань рівня початкової школи.

Дослідники виявили, що навіть невелика зміна заданих завдань — заміна числа або імені персонажа тут або додавання нерелевантної деталі там — викликала величезний сплеск помилок штучного інтелекту. Інакше кажучи, будь-яка зміна питання, що не впливає на суть проблеми, виводить модель з ладу.

На думку дослідників, це доводить, що моделі штучного інтелекту насправді не міркують як люди і не здатні до логічного мислення. Натомість вони просто намагаються відтворити ті самі кроки та послідовності, які бачили в наборах даних під час навчання.

Як приклад команда з Apple навела математичну задачу:

«Олівер збирає 44 ківі в п'ятницю. Потім він збирає 58 ківі у суботу. У неділю він збирає вдвічі більше ківі, ніж у п'ятницю, але п'ять із них були трохи менші за середній розмір. Скільки ківі в Олівера?».

Розмір ківі абсолютно не важливий для розв'язання задачі, проте більшість моделей використовували подібні незначні деталі в процесі розв'язання і незмінно припускалися помилок. Наприклад, модель «o1-mini» (раніше Strawberry) від OpenAI вирішила відняти ківі поменше із загальної суми.

За підрахунками дослідників, загалом точність моделей штучного інтелекту знизилася з 17,5% до приголомшливих 65,7% залежно від моделі. А в ще простішому тесті дослідники виявили, що просте виключення таких деталей, як власні імена або числа, призвело до значного зниження здатності моделі правильно відповідати на запитання: точність знизилася з 0,3% до майже 10% у 20 найкращих моделях міркувань.

Джерело матеріала
loader
loader