Нова модель штучного інтелекту досягла результатів людського рівня в тесті, призначеному для вимірювання "загального інтелекту". 20 грудня система OpenAI o3 набрала 85% у тесті ARC-AGI, що значно перевищує попередній найкращий результат штучного інтелекту (55%) і відповідає середньому показнику людини. Він також отримав хороші оцінки у дуже важкому тесті з математики. Аспірант Школи обчислювальної техніки Австралійського національного університету Майкл Тімоті Беннетт та науковий співробітник Стенфордського університету Елайджа Пер'є пояснюють, що це означає для технологій та людей.
Деталі
За словами дослідників, щоб зрозуміти, що означає результат o3, вам потрібно зрозуміти, що таке тест ARC-AGI. З технічного погляду, це перевірка "ефективності вибірки»"системи штучного інтелекту в адаптації до чогось нового – скільки прикладів нової ситуації система повинна побачити, щоб зрозуміти, як це працює.
Така система ШІ, як ChatGPT (GPT-4), не дуже ефективна. Його "навчали" на мільйонах прикладів людського тексту, будуючи ймовірнісні "правила" про те, які комбінації слів є найбільш імовірними. Результат досить хороший у звичайних завданнях. Він погано справляється з незвичайними завданнями, оскільки має менше даних (менше зразків) таких завдань.
Поки системи штучного інтелекту не зможуть вчитися на невеликій кількості прикладів і адаптуватися з більшою ефективністю вибірки, вони використовуватимуться лише для дуже повторюваних завдань і тих, де випадкові збої допустимі.
Здатність точно вирішувати раніше невідомі або нові проблеми на основі обмежених вибірок даних відома як здатність до узагальнення. Його широко вважають необхідним, навіть фундаментальним елементом інтелекту.
Порівняльний тест ARC-AGI перевіряє ефективну адаптацію зразка за допомогою маленьких квадратних задач, подібних до наведеної нижче. ШІ має з’ясувати шаблон, який перетворює сітку ліворуч на сітку праворуч.
Кожне запитання містить три приклади для навчання. Тоді системі ШІ потрібно з’ясувати правила, які "узагальнюють" три приклади до четвертого.
Точно невідомо, як OpenAI досягла цього, але результати показують, що модель o3 дуже адаптивна. З кількох прикладів вона знаходить правила, які можна узагальнити.
Французький дослідник штучного інтелекту Франсуа Шолле, який розробив тест, вважає, що o3 шукає різні "ланцюжки думок", які описують кроки для вирішення завдання. Потім він обирає "найкращий" відповідно до якогось вільно визначеного правила або "евристики".
Беннетт та Пер'є ставлять питання, наскільки ці результати наближають ШІ OpenAI до AGI, загального штучного інтелекту – головної мети усіх розробників ШІ. Якщо Шолле правий, то нова модель ШІ може бути не набагато кращою за попередню. Але майже все про o3 залишається невідомим. OpenAI обмежила розкриття інформації кількома презентаціями та раннім тестуванням для кількох дослідників, лабораторій та установ безпеки ШІ.
Справжнє розуміння потенціалу o3 вимагатиме великої роботи, включаючи оцінки, розуміння розподілу його можливостей, частоти невдач і успіху.
Коли o3 нарешті буде випущено, ми матимемо набагато краще уявлення про те, чи він приблизно настільки ж адаптивний, як середньостатистична людина. Якщо так, це може мати величезний, революційний, економічний вплив, започаткувавши нову еру самовдосконалення прискореного інтелекту. Нам знадобляться нові тести для самого AGI та серйозний розгляд того, як ним слід керувати.
Якщо ні, то це все одно буде вражаючий результат. Однак повсякденне життя залишиться майже таким же.