OpenAI представила o3 и o4-mini: Новые флагманские модели ChatGPT с расширенными возможностями

16 апреля, 20:33

OpenAI представила свои новейшие и самые мощные модели искусственного интеллекта – o3 и o4-mini. Эти разработки являются частью серии "o", которая фокусируется на моделях, способных к более длительному "обдумыванию" перед предоставлением ответа, устанавливая новый стандарт производительности и полезности.

Согласно анонсу OpenAI, опубликованному 16 апреля 2025 года, новые модели демонстрируют значительный скачок в возможностях рассуждения и интеграции инструментов в ChatGPT. Впервые модели серии "o" могут самостоятельно использовать и комбинировать все доступные инструменты ChatGPT, включая поиск в Интернете, анализ загруженных файлов с помощью Python, глубокий анализ визуальных данных и генерацию изображений.

Модели обучены определять, когда и как применять инструменты для создания детальных ответов в нужном формате, обычно менее чем за минуту, что позволяет им эффективнее решать сложные, многогранные проблемы.

Ключевые характеристики моделей:

OpenAI o3: Самая мощная модель в серии, демонстрирующая передовые результаты в кодировании, математике, науке и визуальном восприятии. Она установила новые рекорды на таких бенчмарках, как Codeforces, SWE-bench и MMMU. Модель особенно эффективна для сложных запросов, требующих анализа со многих аспектов, и визуальных задач (анализ изображений, диаграмм). По оценкам внешних экспертов, o3 делает на 20% меньше значительных ошибок по сравнению с o1 в сложных реальных задачах, особенно в программировании, бизнес-консалтинге и креативной идее. Тестировщики отметили ее аналитическую строгость и способность генерировать и критически оценивать новые гипотезы, в частности в биологии, математике и инженерии.
OpenAI o4-mini: Меньшая модель, оптимизированная для быстрых и экономически эффективных рассуждений. Она показывает выдающуюся производительность для своего размера и стоимости, особенно в математике, кодировании и визуальных задачах. На AIME 2025 модель набрала 99.5%, имея доступ к интерпретатору Python. Она также превосходит своего предшественника, o3-mini, в задачах вне STEM и в таких сферах, как наука о данных. Благодаря эффективности, o4-mini поддерживает значительно более высокие лимиты использования, чем o3.

Обе модели, по оценкам экспертов, лучше следуют инструкциям и предоставляют более полезные и верифицированные ответы благодаря улучшенному интеллекту и интеграции веб-источников. Они также стали более естественными в общении, используя память и историю разговоров для персонализации ответов.

Технологические усовершенствования:

OpenAI отмечает, что масштабирование обучения с подкреплением (RL) демонстрирует тенденцию "больше вычислений = лучшая производительность", аналогичную предварительному обучению GPT-серии. Компания увеличила вычислительные ресурсы для обучения и рассуждения во время выводов, что привело к явному улучшению производительности. Модели также обучены использовать инструменты с помощью RL, понимая, когда именно их применять.

Важной новацией является способность моделей интегрировать изображения непосредственно в процесс "мышления". Они могут анализировать фото доски, диаграммы из учебника или эскизы, даже если изображения размыты или низкого качества, а также манипулировать ими (вращать, масштабировать) во время рассуждения.

Сравнение и примеры:

В приведенных примерах OpenAI o3 демонстрирует значительно лучшие результаты по сравнению с o1 в решении сложных задач, таких как конструирование специфического полинома 19-й степени (o3 нашла корректное решение, o1 – нет) или разработка стратегии расширения гостиничного бизнеса с анализом данных и визуализацией.

Эффективность и стоимость:

Ожидается, что o3 и o4-mini будут не только умнее, но и часто эффективнее по стоимости, чем их предшественники o1 и o3-mini соответственно. Графики сравнения стоимости и производительности показывают явное улучшение для новых моделей.

Безопасность:

OpenAI перестроила данные для обучения безопасности, добавив новые отказные запросы в сферах биологических угроз, генерации вредоносного ПО и попыток обхода ограничений ("джейлбрейков"). Были разработаны системные средства смягчения рисков и мониторинговая ИИ-модель для выявления опасных запросов, которая успешно обнаружила ~99% биоугроз во время кампании "красной команды". Обе модели прошли стресс-тестирование в соответствии с обновленной системой готовности (Preparedness Framework) и остаются ниже порога "Высокий" в категориях биохимических угроз, кибербезопасности и самосовершенствования ИИ. Подробные результаты опубликованы в системной карте моделей.

Codex CLI и инициатива на $1 млн:

OpenAI также запустила эксперимент Codex CLI – легкий агент для кодирования, работающий из терминала непосредственно на компьютере пользователя и использующий возможности рассуждения моделей o3/o4-mini (с будущей поддержкой GPT-4.1). Инструмент является полностью открытым (open-source) на GitHub. Компания объявила инициативу на $1 миллион для поддержки проектов, использующих Codex CLI и модели OpenAI, предоставляя гранты в виде API-кредитов.

Доступ:

Пользователи ChatGPT Plus, Pro и Team получают доступ к o3, o4-mini и o4-mini-high с сегодняшнего дня, заменяя предыдущие модели. Пользователи Enterprise и Edu получат доступ через неделю. Бесплатные пользователи могут попробовать o4-mini, выбрав опцию 'Think'. Модели также доступны разработчикам через API Chat Completions и Responses API. Ожидается выпуск OpenAI o3-pro с полной поддержкой инструментов в ближайшие недели.

Будущее:

OpenAI планирует объединить специализированные возможности рассуждения o-серии с естественными разговорными способностями и использованием инструментов GPT-серии, чтобы будущие модели поддерживали плавные разговоры наряду с проактивным использованием инструментов и решением сложных проблем.

Источник материала

Хвиля

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Кернес, Терехов и Чикатило: украинка стала звездой сети благодаря необычным тату

Telegraf

2 дня назад

Официально: S.T.A.L.K.E.R. 2: Heart of Chornobyl выйдет на PlayStation 5 в конце 2025 года

GameMag

25 минут назад

Эксперт: Гейб Ньюэлл приучил ПК-геймеров скупать игры, которые они даже никогда не запустят — в этом уникальность Steam

GameMag

40 минут назад

Секретные коды ChatGPT: как легко управлять ИИ, чтобы добиваться успеха

Фокус

22 часа назад

4 приема, которые помогут улучшить чтение на любом смартфоне Android

Фокус

2 дня назад

На Google Maps нашли гигантский череп: он смотрит из воды у берегов канадского острова

Фокус

2 дня назад

OpenAI представила o3 и o4-mini: Новые флагманские модели ChatGPT с расширенными возможностями

Технологии

Звук умирающего в Альпах ледника может заставить плакать кого угодно

Илон Маск оскандалился из-за размышлений своего чат-бота

Случаи, в которых никогда не следует использовать удлинители: советы электриков

Кернес, Терехов и Чикатило: украинка стала звездой сети благодаря необычным тату

Официально: S.T.A.L.K.E.R. 2: Heart of Chornobyl выйдет на PlayStation 5 в конце 2025 года

Эксперт: Гейб Ньюэлл приучил ПК-геймеров скупать игры, которые они даже никогда не запустят — в этом уникальность Steam

Секретные коды ChatGPT: как легко управлять ИИ, чтобы добиваться успеха

4 приема, которые помогут улучшить чтение на любом смартфоне Android

На Google Maps нашли гигантский череп: он смотрит из воды у берегов канадского острова

Технологии

Звук умирающего в Альпах ледника может заставить плакать кого угодно

Илон Маск оскандалился из-за размышлений своего чат-бота

Случаи, в которых никогда не следует использовать удлинители: советы электриков

Кернес, Терехов и Чикатило: украинка стала звездой сети благодаря необычным тату

Официально: S.T.A.L.K.E.R. 2: Heart of Chornobyl выйдет на PlayStation 5 в конце 2025 года

Эксперт: Гейб Ньюэлл приучил ПК-геймеров скупать игры, которые они даже никогда не запустят — в этом уникальность Steam

Секретные коды ChatGPT: как легко управлять ИИ, чтобы добиваться успеха

4 приема, которые помогут улучшить чтение на любом смартфоне Android

На Google Maps нашли гигантский череп: он смотрит из воды у берегов канадского острова