Як це працюватиме
Спочатку Operator надійде для першого тестування користувачам, які купили підписку на ChatGPT за 200 доларів. OpenAI заявляє, що з часом планує розгорнути цю функцію для більшої кількості користувачів рівнів Plus, Team та Enterprise. Але безплатною вона, судячи з усього, не стане, повідомляє 24 Канал з посиланням на Neowin.
Зараз Operator доступний лише на окремому сайті, але незабаром його інтегрують в основний сервіс ChatGPT. Сем Альтман, глава компанії OpenAI каже, що нова функція буде доступна в усьому світі, але поширення на Європу займе деякий час, щоб узгодити все з місцевими строгими законами щодо конфіденційності.
Operator обіцяє автоматизувати такі завдання, як бронювання житла для подорожей, бронювання столиків у ресторанах і здійснення покупок в інтернеті. В інтерфейсі є кілька категорій завдань, серед яких користувачі можуть вибирати, включаючи покупки, доставку, ресторани й подорожі — всі вони дозволяють здійснювати різні види автоматизації.
Коли користувачі ChatGPT активують функцію, з'являється невелике вікно, що показує спеціальний браузер, який агент використовує для виконання завдань, разом з поясненнями конкретних дій, які він виконує в конкретний момент. Користувачі все ще зможуть контролювати свій екран під час роботи Operator.
Суть його роботи в тому, що ви можете дати йому завдання природною мовою, і він виконає за вас усю послідовність дій. Наприклад, вам потрібно підготувати вечірку. Дайте йому завдання, в якому вкажіть потрібні товари, кількість гостей, тематику вечірки і запустіть. Він сам зайде у потрібні інтернет-магазини, введе необхідні товари в пошук, огляне найкращі, додасть у кошик. Вам залишиться лише підтвердити операцію наприкінці.
Модель CUA навчена запитувати підтвердження користувача перед завершенням завдань. Наприклад, перед відправленням замовлення, надсиланням електронного листа тощо, щоб користувач міг перевірити роботу моделі,
– пише OpenAI.
Що в основі
OpenAI стверджує, що Operator працює на основі моделі Computer-Using Agent, або CUA, яка поєднує можливості зору моделі GPT-4o компанії з можливостями міркування більш просунутих моделей OpenAI. CUA навчений взаємодіяти з інтерфейсом сайтів, а це означає, що йому не потрібно використовувати API, орієнтовані на розробника, для доступу до різних сервісів.
Іншими словами, CUA може використовувати кнопки, переміщатися по меню та заповнювати форми на сторінці так само, як це робить людина.
OpenAI заявляє, що співпрацює з такими компаніями, як DoorDash, eBay, Instacart, Priceline, StubHub та Uber, щоб гарантувати, що Operator дотримується правил користування послугами цих компаній. Але компанія каже, що "поки що не очікує, що CUA буде надійно працювати у всіх сценаріях".
Зараз Operator не може надійно обробляти багато складних або спеціалізованих завдань, таких як створення детальних слайд-шоу, управління складними календарними системами або взаємодія з висококастомізованими або нестандартними інтерфейсами,
– додає OpenAI в документі підтримки.
З міркувань обережності, OpenAI також вимагає нагляду за деякими завданнями, такими як електронна пошта чи банківські транзакції. Наприклад, користувачі повинні будуть самостійно вводити інформацію про банківську картку. Operator вимагає активного нагляду користувача, що гарантує, що користувачі можуть безпосередньо відстежувати йвиправляти будь-які потенційні помилки, яких може припуститися модель. OpenAI стверджує, що Operator не збирає і не робить скриншотів жодних даних.
Хоча це все й обмежує корисність Operator, але також гарантує, що агент не почне галюцинувати й, скажімо, не витратить весь ваш кредитний ліміт на якийсь непотріб з Temu. Google застосував схожий підхід до свого ШІ-агента Project Mariner, який також не заповнює інформацію, наприклад, номери кредитних карток.
Дивіться демонстрацію роботи нової функції: відео