ChatGPT и другие популярные ИИ показали несовершенство и провалили украинское ВНО
ChatGPT и другие популярные ИИ показали несовершенство и провалили украинское ВНО

ChatGPT и другие популярные ИИ показали несовершенство и провалили украинское ВНО

Ни одна из популярных языковых моделей искусственного интеллекта, в частности ChatGPT, не смогла сдать украинское ВНО.Для этого проверки создали специальный бенчмарк под названием ZNO-Vision - первый в Украине комплексный мультимодальный тест, который оценивает знания моделей ИИ в этих сферах. Результаты исследования опубликовали на платформе arXiv, в котором украинские ученые проверили, насколько хорошо искусственный интеллект работает с украинским языком, образовательным контентом и национальной культурой.В рамках исследования авторы протестировали ряд популярных языковых моделей: Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma и другие. Результаты оказались довольно неожиданными: ни одна из моделей не смогла преодолеть 70% правильных ответов - то есть не сдала экзамен по украинским стандартам.Лучшим оказался результат модели Gemini Pro, которая дала правильные ответы в 67,5% случаев. За ней - Claude 3.5 (64,3%), Qwen2-VL (51,2%), а GPT-4o набрала всего 47%. Для сравнения: условный "базовый уровень", предполагающий случайный выбор ответов, обеспечивает около 22% правильных ответов.Бенчмарк сформировали на основе реальных заданий ВНО по различным дисциплинам: математике, физике, химии, биологии, истории Украины, украинскому языку и литературе. В целом он содержит более 4 тысяч вопросов, часть из которых требует анализа не только текста, но и изображений, схем и графиков.

Источник материала
loader
loader