ChatGPT и другие популярные ИИ показали несовершенство и провалили украинское ВНО

17 июля, 21:57

Ни одна из популярных языковых моделей искусственного интеллекта, в частности ChatGPT, не смогла сдать украинское ВНО.Для этого проверки создали специальный бенчмарк под названием ZNO-Vision - первый в Украине комплексный мультимодальный тест, который оценивает знания моделей ИИ в этих сферах. Результаты исследования опубликовали на платформе arXiv, в котором украинские ученые проверили, насколько хорошо искусственный интеллект работает с украинским языком, образовательным контентом и национальной культурой.В рамках исследования авторы протестировали ряд популярных языковых моделей: Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma и другие. Результаты оказались довольно неожиданными: ни одна из моделей не смогла преодолеть 70% правильных ответов - то есть не сдала экзамен по украинским стандартам.Лучшим оказался результат модели Gemini Pro, которая дала правильные ответы в 67,5% случаев. За ней - Claude 3.5 (64,3%), Qwen2-VL (51,2%), а GPT-4o набрала всего 47%. Для сравнения: условный "базовый уровень", предполагающий случайный выбор ответов, обеспечивает около 22% правильных ответов.Бенчмарк сформировали на основе реальных заданий ВНО по различным дисциплинам: математике, физике, химии, биологии, истории Украины, украинскому языку и литературе. В целом он содержит более 4 тысяч вопросов, часть из которых требует анализа не только текста, но и изображений, схем и графиков.

Источник материала

Gazeta UA

Поделиться сюжетом

Подробнее о событии

ChatGPT и другие популярные ИИ-системы провалили украинское ВНО: ни одна модель не набрала 70%

5 часов назад

•

Фокус

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Землю снова атаковала магнитная буря красного уровня: сколько будет длиться шторм

Апостроф

7 часов назад

Новый рекорд производительности солнечных панелей Японии вызывал странный эффект: что случилось

Фокус

7 часов назад

Кернес, Терехов и Чикатило: украинка стала звездой сети благодаря необычным тату

Telegraf

7 июля 2025

Секретные коды ChatGPT: как легко управлять ИИ, чтобы добиваться успеха

Фокус

8 июля 2025

4 приема, которые помогут улучшить чтение на любом смартфоне Android

Фокус

7 июля 2025

ChatGPT и другие популярные ИИ показали несовершенство и провалили украинское ВНО

Технологии

Землю снова атаковала магнитная буря красного уровня: сколько будет длиться шторм

Новый рекорд производительности солнечных панелей Японии вызывал странный эффект: что случилось

Звук умирающего в Альпах ледника может заставить плакать кого угодно

Илон Маск оскандалился из-за размышлений своего чат-бота

В США представили собственный аналог "Шахеда"

В сети показали впечатляющее видео вращения Земли

Кернес, Терехов и Чикатило: украинка стала звездой сети благодаря необычным тату

Секретные коды ChatGPT: как легко управлять ИИ, чтобы добиваться успеха

4 приема, которые помогут улучшить чтение на любом смартфоне Android

Технологии

Землю снова атаковала магнитная буря красного уровня: сколько будет длиться шторм

Новый рекорд производительности солнечных панелей Японии вызывал странный эффект: что случилось

Звук умирающего в Альпах ледника может заставить плакать кого угодно

Илон Маск оскандалился из-за размышлений своего чат-бота

В США представили собственный аналог "Шахеда"

В сети показали впечатляющее видео вращения Земли

Кернес, Терехов и Чикатило: украинка стала звездой сети благодаря необычным тату

Секретные коды ChatGPT: как легко управлять ИИ, чтобы добиваться успеха

4 приема, которые помогут улучшить чтение на любом смартфоне Android