Компанія DeepMind каже, що її новий ШІ працює краще, ніж золоті медалісти олімпіад
Компанія DeepMind каже, що її новий ШІ працює краще, ніж золоті медалісти олімпіад

Компанія DeepMind каже, що її новий ШІ працює краще, ніж золоті медалісти олімпіад

Значний прогрес

У нещодавно опублікованому дослідженні вчені DeepMind, які стоять за AlphaGeometry2, стверджують, що їхній ШІ може розв'язати 84% всіх задач з геометрії за останні 25 років на Міжнародній математичній олімпіаді (IMO), математичному конкурсі для старшокласників. Чому DeepMind цікавить математична олімпіада для старшокласників? У лабораторії вважають, що ключ до створення більш здібного штучного інтелекту може лежати у відкритті нових способів розв'язування складних геометричних задач, зокрема задач з евклідової геометрії, повідомляє 24 Канал з посиланням на звіт, опублікований на сайті препринтів arxiv.org.

Доведення математичних теорем або логічне пояснення того, чому теорема (наприклад, теорема Піфагора) є істиною, вимагає як міркувань, так і здатності вибирати можливі шляхи розв'язання з низки варіантів. Ці навички вирішення проблем є дуже корисними для потужнішого штучного інтелекту. Тому, створюючи модель, яка зможе розв'язувати математичні рівняння, вчені одночасно наближаються до універсального ШІ, який є мрією всієї галузі й зможе зрівнятися або й перевершити людину.

AlphaGeometry2 має кілька основних елементів, включаючи мовну модель з сімейства моделей штучного інтелекту Gemini від Google і "символьний рушій". Модель Gemini допомагає рушієві, котрий використовує математичні правила для виведення розв'язків задач, знаходити обґрунтовані доведення для заданої геометричної теореми.

Олімпіадні задачі з геометрії базуються на діаграмах, які потребують додавання "конструкцій", таких як точки, лінії або кола, перш ніж їх можна буде розв'язати. Модель Gemini в AlphaGeometry2 передбачає, які конструкції можуть бути корисними для додавання до діаграми, на які посилається движок, щоб зробити висновки.

Фактично модель Gemini в AlphaGeometry2 пропонує кроки та конструкції формальною математичною мовою для символьного рушія, котрий, дотримуючись певних правил, перевіряє ці кроки на логічну послідовність. Алгоритм пошуку дозволяє AlphaGeometry2 паралельно проводити декілька пошуків рішень і зберігати можливі корисні результати в загальній базі знань.

AlphaGeometry2 вважає задачу "розв'язаною", коли отримує доведення, яке поєднує пропозиції моделі Gemini з відомими принципами символьного рушія.

Через складність перекладу доведень у формат, зрозумілий ШІ, існує дефіцит придатних для використання навчальних даних з геометрії. Тому DeepMind створив власні синтетичні дані для навчання мовної моделі AlphaGeometry2, згенерувавши понад 300 мільйонів теорем і доведень різної складності.

Результати нового ШІ

Команда DeepMind відібрала 45 геометричних задач з олімпіад IMO за останні 25 років (з 2000 по 2024 рік), включаючи лінійні рівняння та рівняння, що вимагають переміщення геометричних об'єктів по площині. Потім вони "переклали" їх у більший набір з 50 задач. З технічних причин деякі задачі довелося розділити на дві.

Звичайно, є обмеження:

  • Технічна особливість не дозволяє AlphaGeometry2 розв'язувати задачі зі змінною кількістю точок, нелінійні рівняння та нерівності.
  • AlphaGeometry2 технічно не є першою ШІ-системою, яка досягла рівня золотої медалі в геометрії, хоча вона є першою, яка досягла цього з набором задач такого розміру.
  • AlphaGeometry2 також показала гірші результати на іншому наборі складніших задач IMO. Для додаткового випробування команда DeepMind відібрала задачі – загалом 29 – які були номіновані математичними експертами для іспитів IMO, але ще не з'являлися на змаганнях. AlphaGeometry2 зміг розв'язати лише 20 з них.
Теги за темою
Google Техно
Джерело матеріала
loader
loader