/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F43ca98d30317364d2eca4dd503988f9b.jpg)
Найрозумніші моделі штучного інтелекту не склали українське ЗНО, - дослідження
Хоча штучний інтелект уже давно обганяє людей у швидкості обробки даних і точності обчислень, його логічне мислення та аналітичний підхід, як і раніше, залишає бажати кращого. Ба більше, ChatGPT і інші популярні моделі ШІ не склали б українського ЗНО.
Як пише Dev.ua, команда українських дослідників представила ZNOVision – перший багатоформатний тест для ШІ, що перевіряє знання з 13 предметів ЗНО українською мовою. До тестування залучили шість 6 великих мовних моделей різних розробників, включаючи OpenAI, Google та Claude.
Бенчмарк складається з більш ніж 4300 питань і охоплює 12 академічних дисциплін, включаючи математику, фізику, хімію та гуманітарні науки. Більше половини з них містять візуальний компонент – схеми, діаграми, малюнки. Частина питань потребує логічного виведення (reasoning), інша – точної інтерпретації інструкцій українською мовою.
Результати тесту показали, що штучному інтелекту не вдалось подолати поріг у 70% правильних відповідей. Найкращий бал (67,5%) – у Gemini Pro і 64,3% у Claude 3.5, тоді як GPT-4o набрав лише 47%. Для порівняння, вибір навмання дав би ≈ 22%.
За словами дослідників, найбільші труднощі для ШІ викликали візуально-текстові завдання: моделі не розпізнавали українські слова на картинках, плутали одиниці виміру, ігнорували частину формулювання.
У спеціальному наборі VQAUA (візуальні запитання українською) показники були ще нижчими: Claude – 26,7%, GPT-4o – 29%. Це майже вдвічі гірше, ніж середні результати для англомовних аналогів (60%+), що свідчить про слабку підтримку української мови на рівні мультимодальних представлень.

