Новітні моделі штучного інтелекту OpenAI мають новий захист для запобігання біоризикам

18 апреля, 09:31

OpenAI каже, що розгорнула нову систему для моніторингу своїх останніх моделей міркування штучного інтелекту, o3 і o4-mini , для підказок, пов’язаних із біологічними та хімічними загрозами. Згідно зі звітом OpenAI про безпеку , система спрямована на те, щоб моделі не пропонували поради, які могли б інструктувати когось щодо здійснення потенційно шкідливих атак.

O3 і o4-mini представляють суттєве збільшення можливостей порівняно з попередніми моделями OpenAI, кажуть у компанії, і, таким чином, створюють нові ризики в руках зловмисників. Відповідно до внутрішніх тестів OpenAI, o3 краще відповідає на запитання щодо створення певних типів біологічних загроз. З цієї причини — а також для пом’якшення інших ризиків — OpenAI створив нову систему моніторингу, яку компанія описує як «монітор міркування, орієнтований на безпеку».

Монітор, спеціально навчений міркувати про політику вмісту OpenAI, працює поверх o3 та o4-mini. Він розроблений, щоб ідентифікувати підказки, пов’язані з біологічними та хімічними ризиками, і наказувати моделям відмовлятися надавати поради з цих тем.

Щоб встановити базову лінію, OpenAI запропонував червоним командам витратити близько 1000 годин, позначаючи «небезпечні» розмови, пов’язані з біоризиками, з o3 і o4-mini. За даними OpenAI, під час тесту, в якому OpenAI симулював «логіку блокування» свого монітора безпеки, моделі відмовлялися реагувати на ризиковані підказки в 98,7% випадків.

OpenAI визнає, що в його тесті не враховувалися люди, які могли спробувати нові підказки після того, як їх заблокував монітор, тому компанія каже, що продовжить частково покладатися на людський моніторинг.

За словами компанії, O3 і o4-mini не перевищують поріг «високого ризику» OpenAI для біоризиків. Однак, порівняно з o1 і GPT-4, OpenAI каже, що ранні версії o3 і o4-mini виявилися більш корисними у відповідях на запитання щодо розробки біологічної зброї.

Новітні моделі штучного інтелекту OpenAI мають новий захист для запобігання біоризикам - Фото 1

Відповідно до нещодавно оновленої OpenAI Preparedness Framework , компанія активно відстежує, як її моделі можуть полегшити зловмисникам розробку хімічних і біологічних загроз.

OpenAI все більше покладається на автоматизовані системи, щоб зменшити ризики від своїх моделей. Наприклад, OpenAI стверджує, що для запобігання створенню власним генератором зображень GPT-4o матеріалу сексуального насильства над дітьми (CSAM) використовується монітор міркування, подібний до того, який компанія розгорнула для o3 і o4-mini.

Проте кілька дослідників висловили занепокоєння, що OpenAI не надає пріоритету безпеці настільки, як мав би. Один із партнерів компанії, Metr, сказав, що у нього було відносно мало часу, щоб перевірити o3 на еталонному тесті на оманливу поведінку. Тим часом OpenAI вирішила не публікувати звіт про безпеку своєї моделі GPT-4.1 , яка була запущена на початку цього тижня.

Источник материала

InternetUA

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Telegram дает сбои: пользователи пожаловались на проблемы с отправкой сообщений

TSN

13 часов назад

Почему вода в океане солёная, а в озёрах и реках - нет: ответ вас может удивить

UAToday

26 июля 2025

Таинственный межзвездный объект несется сквозь Солнечную систему — он больше Эвереста

TSN

28 июля 2025

Ученые обнаружили изысканные татуировки на теле "ледяной мумии" из Сибири

Апостроф

4 минуты назад

Google представила новую модель ИИ, которая решает задачи лучше, чем OpenAI и xAI

Лига

13 минут назад

Первые звезды во Вселенной помогли создать первичные черные дыры: что выяснили астрономы

Фокус

56 минут назад

Ищут самых могущественных женщин истории: что известно

Фокус

56 минут назад

Параболические панели генерируют "энергию 2000 солнц": как работает система HCPVT

Фокус

2 часа назад

День на Земле стал короче — эксперты предупреждают о серьезных последствиях

TSN

2 часа назад