Найрозумніші моделі штучного інтелекту не склали українське ЗНО, - дослідження
Найрозумніші моделі штучного інтелекту не склали українське ЗНО, - дослідження

Найрозумніші моделі штучного інтелекту не склали українське ЗНО, - дослідження

Хоча штучний інтелект уже давно обганяє людей у швидкості обробки даних і точності обчислень, його логічне мислення та аналітичний підхід, як і раніше, залишає бажати кращого. Ба більше, ChatGPT і інші популярні моделі ШІ не склали б українського ЗНО.

Як пише Dev.ua, команда українських дослідників представила ZNOVision – перший багатоформатний тест для ШІ, що перевіряє знання з 13 предметів ЗНО українською мовою. До тестування залучили шість 6 великих мовних моделей різних розробників, включаючи OpenAI, Google та Claude.

Бенчмарк складається з більш ніж 4300 питань і охоплює 12 академічних дисциплін, включаючи математику, фізику, хімію та гуманітарні науки. Більше половини з них містять візуальний компонент – схеми, діаграми, малюнки. Частина питань потребує логічного виведення (reasoning), інша – точної інтерпретації інструкцій українською мовою.

Результати тесту показали, що штучному інтелекту не вдалось подолати поріг у 70% правильних відповідей. Найкращий бал (67,5%) – у Gemini Pro і 64,3% у Claude 3.5, тоді як GPT-4o набрав лише 47%. Для порівняння, вибір навмання дав би ≈ 22%. 

За словами дослідників, найбільші труднощі для ШІ викликали візуально-текстові завдання: моделі не розпізнавали українські слова на картинках, плутали одиниці виміру, ігнорували частину формулювання.

У спеціальному наборі VQAUA (візуальні запитання українською) показники були ще нижчими: Claude – 26,7%, GPT-4o – 29%. Це майже вдвічі гірше, ніж середні результати для англомовних аналогів (60%+), що свідчить про слабку підтримку української мови на рівні мультимодальних представлень.

Джерело матеріала
loader
loader