/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F64%2F0549d04b47a090477212aeaa36d27d90.jpg)
ChatGPT та інші популярні ШІ провалили українське ЗНО
Жодна з популярних мовних моделей штучного інтелекту, зокрема ChatGPT, не змогла скласти українське ЗНО.Для перевірки цього створили спеціальний бенчмарк під назвою ZNO-Vision - перший в Україні комплексний мультимодальний тест, який оцінює знання моделей ШІ у цих сферах. Результати дослідження опублікували на платформі arXiv, у якому українські науковці перевірили, наскільки добре штучний інтелект працює з українською мовою, освітнім контентом та національною культурою.У межах дослідження автори протестували низку популярних мовних моделей: Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma та інші. Результати виявились доволі неочікуваними: жодна з моделей не змогла дати 70% правильних відповідей - тобто не склала іспит за українськими стандартами.Найкращим виявився результат моделі Gemini Pro, яка дала правильні відповіді у 67,5% випадків. За нею - Claude 3.5 (64,3%), Qwen2-VL (51,2%), а GPT-4o набрала всього 47%. Для порівняння: умовний "базовий рівень", який передбачає випадковий вибір відповідей, забезпечує близько 22% правильних відповідей.Бенчмарк сформували на основі реальних завдань ЗНО з різних дисциплін: математики, фізики, хімії, біології, історії України, української мови та літератури. Загалом він містить понад 4 тисячі запитань, частина з яких вимагає аналізу не лише тексту, а й зображень, схем та графіків.

