/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F33%2F094d2b001e1527018ad1e59ee885a9cb.jpg)
OpenAI представила o3 и o4-mini: Новые флагманские модели ChatGPT с расширенными возможностями
OpenAI представила свои новейшие и самые мощные модели искусственного интеллекта – o3 и o4-mini. Эти разработки являются частью серии "o", которая фокусируется на моделях, способных к более длительному "обдумыванию" перед предоставлением ответа, устанавливая новый стандарт производительности и полезности.
Согласно анонсу OpenAI, опубликованному 16 апреля 2025 года, новые модели демонстрируют значительный скачок в возможностях рассуждения и интеграции инструментов в ChatGPT. Впервые модели серии "o" могут самостоятельно использовать и комбинировать все доступные инструменты ChatGPT, включая поиск в Интернете, анализ загруженных файлов с помощью Python, глубокий анализ визуальных данных и генерацию изображений.
Модели обучены определять, когда и как применять инструменты для создания детальных ответов в нужном формате, обычно менее чем за минуту, что позволяет им эффективнее решать сложные, многогранные проблемы.
Ключевые характеристики моделей:
- OpenAI o3: Самая мощная модель в серии, демонстрирующая передовые результаты в кодировании, математике, науке и визуальном восприятии. Она установила новые рекорды на таких бенчмарках, как Codeforces, SWE-bench и MMMU. Модель особенно эффективна для сложных запросов, требующих анализа со многих аспектов, и визуальных задач (анализ изображений, диаграмм). По оценкам внешних экспертов, o3 делает на 20% меньше значительных ошибок по сравнению с o1 в сложных реальных задачах, особенно в программировании, бизнес-консалтинге и креативной идее. Тестировщики отметили ее аналитическую строгость и способность генерировать и критически оценивать новые гипотезы, в частности в биологии, математике и инженерии.
- OpenAI o4-mini: Меньшая модель, оптимизированная для быстрых и экономически эффективных рассуждений. Она показывает выдающуюся производительность для своего размера и стоимости, особенно в математике, кодировании и визуальных задачах. На AIME 2025 модель набрала 99.5%, имея доступ к интерпретатору Python. Она также превосходит своего предшественника, o3-mini, в задачах вне STEM и в таких сферах, как наука о данных. Благодаря эффективности, o4-mini поддерживает значительно более высокие лимиты использования, чем o3.
Обе модели, по оценкам экспертов, лучше следуют инструкциям и предоставляют более полезные и верифицированные ответы благодаря улучшенному интеллекту и интеграции веб-источников. Они также стали более естественными в общении, используя память и историю разговоров для персонализации ответов.
Технологические усовершенствования:
OpenAI отмечает, что масштабирование обучения с подкреплением (RL) демонстрирует тенденцию "больше вычислений = лучшая производительность", аналогичную предварительному обучению GPT-серии. Компания увеличила вычислительные ресурсы для обучения и рассуждения во время выводов, что привело к явному улучшению производительности. Модели также обучены использовать инструменты с помощью RL, понимая, когда именно их применять.
Важной новацией является способность моделей интегрировать изображения непосредственно в процесс "мышления". Они могут анализировать фото доски, диаграммы из учебника или эскизы, даже если изображения размыты или низкого качества, а также манипулировать ими (вращать, масштабировать) во время рассуждения.
Сравнение и примеры:
В приведенных примерах OpenAI o3 демонстрирует значительно лучшие результаты по сравнению с o1 в решении сложных задач, таких как конструирование специфического полинома 19-й степени (o3 нашла корректное решение, o1 – нет) или разработка стратегии расширения гостиничного бизнеса с анализом данных и визуализацией.
Эффективность и стоимость:
Ожидается, что o3 и o4-mini будут не только умнее, но и часто эффективнее по стоимости, чем их предшественники o1 и o3-mini соответственно. Графики сравнения стоимости и производительности показывают явное улучшение для новых моделей.
Безопасность:
OpenAI перестроила данные для обучения безопасности, добавив новые отказные запросы в сферах биологических угроз, генерации вредоносного ПО и попыток обхода ограничений ("джейлбрейков"). Были разработаны системные средства смягчения рисков и мониторинговая ИИ-модель для выявления опасных запросов, которая успешно обнаружила ~99% биоугроз во время кампании "красной команды". Обе модели прошли стресс-тестирование в соответствии с обновленной системой готовности (Preparedness Framework) и остаются ниже порога "Высокий" в категориях биохимических угроз, кибербезопасности и самосовершенствования ИИ. Подробные результаты опубликованы в системной карте моделей.
Codex CLI и инициатива на $1 млн:
OpenAI также запустила эксперимент Codex CLI – легкий агент для кодирования, работающий из терминала непосредственно на компьютере пользователя и использующий возможности рассуждения моделей o3/o4-mini (с будущей поддержкой GPT-4.1). Инструмент является полностью открытым (open-source) на GitHub. Компания объявила инициативу на $1 миллион для поддержки проектов, использующих Codex CLI и модели OpenAI, предоставляя гранты в виде API-кредитов.
Доступ:
Пользователи ChatGPT Plus, Pro и Team получают доступ к o3, o4-mini и o4-mini-high с сегодняшнего дня, заменяя предыдущие модели. Пользователи Enterprise и Edu получат доступ через неделю. Бесплатные пользователи могут попробовать o4-mini, выбрав опцию 'Think'. Модели также доступны разработчикам через API Chat Completions и Responses API. Ожидается выпуск OpenAI o3-pro с полной поддержкой инструментов в ближайшие недели.
Будущее:
OpenAI планирует объединить специализированные возможности рассуждения o-серии с естественными разговорными способностями и использованием инструментов GPT-серии, чтобы будущие модели поддерживали плавные разговоры наряду с проактивным использованием инструментов и решением сложных проблем.
