OpenAI официально представила ИИ-агента Operator — инструмент автоматизации действий в браузере, который может взаимодействовать с элементами на экране (кнопки, текстовые поля и т.д.) почти так же, как это делал бы человек.
Operator использует новую модель искусственного интеллекта под названием Computer-Using Agent (CUA), что и обеспечивает управление компьютером через визуальный интерфейс (фактически здесь сочетаются возможности GPT-4o по распознаванию изображений с обновленным механизмом рассуждения). Действия происходят в несколько этапов: изначально агент фиксирует снимки экрана, анализирует их и определяет, какие действия должен выполнить — а затем с помощью симуляции мыши и клавиатуры осуществляет нажатия, прокрутку или ввод текста.
Во время работы Operator пользователь увидит все эти действия в миниатюрном окне браузера.
Конечно, технология относительно нова и далека от совершенства. На данный момент агент лучше всего справляется с повторяемыми задачами (такими, как создание списков покупок или списков воспроизведения), но несколько «тормозит» на незнакомых интерфейсах (таблицы или календари) и при редактировании сложных текстов.
A research preview of Operator, an agent that can use its own browser to perform tasks for you. pic.twitter.com/wkBBDIlVqj
— OpenAI (@OpenAI) January 23, 2025
OpenAI отмечает, что встроила в Operator несколько элементов управления безопасностью, которые требуют подтверждения пользователя перед выполнением конфиденциальных действий, таких как отправка электронных писем или осуществление покупок. Инструмент также имеет ограничения на то, что может просматривать — в основном это касается сайтов для взрослых или азартных игр.
С сегодняшнего дня Operator доступен в предварительном просмотре в подписке ChatGPT Pro за $200 (только в США), но впоследствии OpenAI добавит инструмент для владельцев тарифов Plus, Team и Enterprise. Также в планах — интеграция Operator непосредственно в ChatGPT и выпуск CUA через API для разработчиков.
Предварительный просмотр позволит OpenAI собрать отзывы о Operator и улучшить систему для дальнейшей работы.
OpenAI — не единственная компания, которая продвигает «агентские» системы ИИ. В декабре Google анонсировала Project Mariner, который выполняет автоматизированные задачи через браузер Chrome, а двумя месяцами ранее подобную систему запустила Anthropic.