ChatGPT та інші популярні ШІ провалили українське ЗНО

18 липня, 11:45

Жодна з популярних мовних моделей штучного інтелекту, зокрема ChatGPT, не змогла скласти українське ЗНО.Для перевірки цього створили спеціальний бенчмарк під назвою ZNO-Vision - перший в Україні комплексний мультимодальний тест, який оцінює знання моделей ШІ у цих сферах. Результати дослідження опублікували на платформі arXiv, у якому українські науковці перевірили, наскільки добре штучний інтелект працює з українською мовою, освітнім контентом та національною культурою.У межах дослідження автори протестували низку популярних мовних моделей: Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma та інші. Результати виявились доволі неочікуваними: жодна з моделей не змогла дати 70% правильних відповідей - тобто не склала іспит за українськими стандартами.Найкращим виявився результат моделі Gemini Pro, яка дала правильні відповіді у 67,5% випадків. За нею - Claude 3.5 (64,3%), Qwen2-VL (51,2%), а GPT-4o набрала всього 47%. Для порівняння: умовний "базовий рівень", який передбачає випадковий вибір відповідей, забезпечує близько 22% правильних відповідей.Бенчмарк сформували на основі реальних завдань ЗНО з різних дисциплін: математики, фізики, хімії, біології, історії України, української мови та літератури. Загалом він містить понад 4 тисячі запитань, частина з яких вимагає аналізу не лише тексту, а й зображень, схем та графіків.

Джерело матеріала

Gazeta UA

Поділитися сюжетом

Суспільство

Українське суспільство Світове суспільство Армія Релігія

Ніде в світі такого досі нема: експерт розповів, як Україна створила новий тип зброї

InternetUA

3 години тому

В Україні дозволять брати на роботу без документів ТЦК: що відомо про новий закон

Хвиля

3 години тому

Без шансів на бронювання: ТЦК масово "забуває" зняти з розшуку

Знай

3 години тому

Поки "Боривітер" у Лондоні: українців просять допомогти врятувати останню мозаїку Алли Горської

24tv

3 години тому

Чи можна відправляти панахиду раніше чи пізніше: священник назвав "правильний" час

GlavRed

3 години тому

В Україні змінили процедуру обміну водійських прав: що потрібно знати у 2025 році

Хвиля

4 години тому

ChatGPT та інші популярні ШІ провалили українське ЗНО

Суспільство

Ніде в світі такого досі нема: експерт розповів, як Україна створила новий тип зброї

В Україні дозволять брати на роботу без документів ТЦК: що відомо про новий закон

Без шансів на бронювання: ТЦК масово "забуває" зняти з розшуку

Поки "Боривітер" у Лондоні: українців просять допомогти врятувати останню мозаїку Алли Горської

Чи можна відправляти панахиду раніше чи пізніше: священник назвав "правильний" час

Мадяр: Ми не бачимо закінчення війни – ні завтра, ні, ймовірно, цього року

Чи можна зрізати дерево на власному подвір'ї без дозволу

Греція готується до аномальної спеки: названо дату

В Україні змінили процедуру обміну водійських прав: що потрібно знати у 2025 році

Суспільство

Ніде в світі такого досі нема: експерт розповів, як Україна створила новий тип зброї

В Україні дозволять брати на роботу без документів ТЦК: що відомо про новий закон

Без шансів на бронювання: ТЦК масово "забуває" зняти з розшуку

Поки "Боривітер" у Лондоні: українців просять допомогти врятувати останню мозаїку Алли Горської

Чи можна відправляти панахиду раніше чи пізніше: священник назвав "правильний" час

Мадяр: Ми не бачимо закінчення війни – ні завтра, ні, ймовірно, цього року

Чи можна зрізати дерево на власному подвір'ї без дозволу

Греція готується до аномальної спеки: названо дату

В Україні змінили процедуру обміну водійських прав: що потрібно знати у 2025 році