OpenAI представила o3 та o4-mini: Нові флагманські моделі ChatGPT з розширеними можливостями
OpenAI представила o3 та o4-mini: Нові флагманські моделі ChatGPT з розширеними можливостями

OpenAI представила o3 та o4-mini: Нові флагманські моделі ChatGPT з розширеними можливостями

OpenAI представила свої найновіші та найпотужніші моделі штучного інтелекту – o3 та o4-mini. Ці розробки є частиною серії "o", яка фокусується на моделях, що здатні до більш тривалого "обмірковування" перед наданням відповіді, встановлюючи новий стандарт продуктивності та корисності.

Згідно з анонсом OpenAI, опублікованим 16 квітня 2025 року, нові моделі демонструють значний стрибок у можливостях міркування та інтеграції інструментів у ChatGPT. Вперше моделі серії "o" можуть самостійно використовувати та комбінувати всі доступні інструменти ChatGPT, включно з пошуком в Інтернеті, аналізом завантажених файлів за допомогою Python, глибоким аналізом візуальних даних та генерацією зображень.

Моделі навчені визначати, коли і як застосовувати інструменти для створення детальних відповідей у потрібному форматі, зазвичай менш ніж за хвилину, що дозволяє їм ефективніше розв'язувати складні, багатогранні проблеми.

Ключові характеристики моделей:

  • OpenAI o3: Найпотужніша модель у серії, що демонструє передові результати в кодуванні, математиці, науці та візуальному сприйнятті. Вона встановила нові рекорди на таких бенчмарках, як Codeforces, SWE-bench та MMMU. Модель особливо ефективна для складних запитів, що вимагають аналізу з багатьох аспектів, та візуальних завдань (аналіз зображень, діаграм). За оцінками зовнішніх експертів, o3 робить на 20% менше значних помилок порівняно з o1 у складних реальних завданнях, особливо у програмуванні, бізнес-консалтингу та креативній ідеї. Тестувальники відзначили її аналітичну строгість та здатність генерувати й критично оцінювати нові гіпотези, зокрема в біології, математиці та інженерії.
  • OpenAI o4-mini: Менша модель, оптимізована для швидких та економічно ефективних міркувань. Вона показує видатну продуктивність для свого розміру та вартості, особливо в математиці, кодуванні та візуальних завданнях. На AIME 2025 модель набрала 99.5%, маючи доступ до інтерпретатора Python. Вона також перевершує свого попередника, o3-mini, у завданнях поза STEM та в таких сферах, як наука про дані. Завдяки ефективності, o4-mini підтримує значно вищі ліміти використання, ніж o3.

Обидві моделі, за оцінками експертів, краще дотримуються інструкцій та надають більш корисні й верифіковані відповіді завдяки покращеному інтелекту та інтеграції веб-джерел. Вони також стали більш природними у спілкуванні, використовуючи пам'ять та історію розмов для персоналізації відповідей.

Технологічні вдосконалення:

OpenAI зазначає, що масштабування навчання з підкріпленням (RL) демонструє тенденцію "більше обчислень = краща продуктивність", аналогічну до попереднього навчання GPT-серії. Компанія збільшила обчислювальні ресурси для навчання та міркування під час висновування, що призвело до явного покращення продуктивності. Моделі також навчені використовувати інструменти за допомогою RL, розуміючи, коли саме їх застосовувати.

Важливою новацією є здатність моделей інтегрувати зображення безпосередньо у процес "мислення". Вони можуть аналізувати фото дошки, діаграми з підручника чи ескізи, навіть якщо зображення розмиті чи низької якості, а також маніпулювати ними (обертати, масштабувати) під час міркування.

Порівняння та приклади:

У наведених прикладах OpenAI o3 демонструє значно кращі результати порівняно з o1 у розв'язанні складних завдань, таких як конструювання специфічного полінома 19-го ступеня (o3 знайшла коректне рішення, o1 – ні) або розробка стратегії розширення готельного бізнесу з аналізом даних та візуалізацією.

Ефективність та вартість:

Очікується, що o3 та o4-mini будуть не тільки розумнішими, але й часто ефективнішими за вартістю, ніж їхні попередники o1 та o3-mini відповідно. Графіки порівняння вартості та продуктивності показують явне покращення для нових моделей.

Безпека:

OpenAI перебудувала дані для навчання безпеки, додавши нові відмовні запити у сферах біологічних загроз, генерації шкідливого ПЗ та спроб обходу обмежень ("джейлбрейків"). Було розроблено системні засоби пом'якшення ризиків та моніторингову ШІ-модель для виявлення небезпечних запитів, яка успішно виявила ~99% біозагроз під час кампанії "червоної команди". Обидві моделі пройшли стрес-тестування відповідно до оновленої системи готовності (Preparedness Framework) і залишаються нижче порогу "Високий" у категоріях біохімічних загроз, кібербезпеки та самовдосконалення ШІ. Детальні результати опубліковані у системній карті моделей.

Codex CLI та ініціатива на $1 млн:

OpenAI також запустила експеримент Codex CLI – легкий агент для кодування, що працює з терміналу безпосередньо на комп'ютері користувача та використовує можливості міркування моделей o3/o4-mini (з майбутньою підтримкою GPT-4.1). Інструмент є повністю відкритим (open-source) на GitHub. Компанія оголосила ініціативу на $1 мільйон для підтримки проєктів, що використовують Codex CLI та моделі OpenAI, надаючи гранти у вигляді API-кредитів.

Доступ:

Користувачі ChatGPT Plus, Pro та Team отримують доступ до o3, o4-mini та o4-mini-high з сьогоднішнього дня, замінюючи попередні моделі. Користувачі Enterprise та Edu отримають доступ за тиждень. Безкоштовні користувачі можуть спробувати o4-mini, обравши опцію 'Think'. Моделі також доступні розробникам через API Chat Completions та Responses API. Очікується випуск OpenAI o3-pro з повною підтримкою інструментів найближчими тижнями.

Майбутнє:

OpenAI планує об'єднати спеціалізовані можливості міркування o-серії з природними розмовними здібностями та використанням інструментів GPT-серії, щоб майбутні моделі підтримували плавні розмови поряд із проактивним використанням інструментів та розв'язанням складних проблем.

Джерело матеріала
loader
loader