Новітні моделі штучного інтелекту OpenAI мають новий захист для запобігання біоризикам
Новітні моделі штучного інтелекту OpenAI мають новий захист для запобігання біоризикам

Новітні моделі штучного інтелекту OpenAI мають новий захист для запобігання біоризикам

OpenAI каже, що розгорнула нову систему для моніторингу своїх останніх моделей міркування штучного інтелекту, o3 і o4-mini , для підказок, пов’язаних із біологічними та хімічними загрозами. Згідно зі звітом OpenAI про безпеку , система спрямована на те, щоб моделі не пропонували поради, які могли б інструктувати когось щодо здійснення потенційно шкідливих атак.

O3 і o4-mini представляють суттєве збільшення можливостей порівняно з попередніми моделями OpenAI, кажуть у компанії, і, таким чином, створюють нові ризики в руках зловмисників. Відповідно до внутрішніх тестів OpenAI, o3 краще відповідає на запитання щодо створення певних типів біологічних загроз. З цієї причини — а також для пом’якшення інших ризиків — OpenAI створив нову систему моніторингу, яку компанія описує як «монітор міркування, орієнтований на безпеку».

Монітор, спеціально навчений міркувати про політику вмісту OpenAI, працює поверх o3 та o4-mini. Він розроблений, щоб ідентифікувати підказки, пов’язані з біологічними та хімічними ризиками, і наказувати моделям відмовлятися надавати поради з цих тем.

Щоб встановити базову лінію, OpenAI запропонував червоним командам витратити близько 1000 годин, позначаючи «небезпечні» розмови, пов’язані з біоризиками, з o3 і o4-mini. За даними OpenAI, під час тесту, в якому OpenAI симулював «логіку блокування» свого монітора безпеки, моделі відмовлялися реагувати на ризиковані підказки в 98,7% випадків.

OpenAI визнає, що в його тесті не враховувалися люди, які могли спробувати нові підказки після того, як їх заблокував монітор, тому компанія каже, що продовжить частково покладатися на людський моніторинг.

За словами компанії, O3 і o4-mini не перевищують поріг «високого ризику» OpenAI для біоризиків. Однак, порівняно з o1 і GPT-4, OpenAI каже, що ранні версії o3 і o4-mini виявилися більш корисними у відповідях на запитання щодо розробки біологічної зброї.

Новітні моделі штучного інтелекту OpenAI мають новий захист для запобігання біоризикам - Фото 1

Відповідно до нещодавно оновленої OpenAI Preparedness Framework , компанія активно відстежує, як її моделі можуть полегшити зловмисникам розробку хімічних і біологічних загроз.

OpenAI все більше покладається на автоматизовані системи, щоб зменшити ризики від своїх моделей. Наприклад, OpenAI стверджує, що для запобігання створенню власним генератором зображень GPT-4o матеріалу сексуального насильства над дітьми (CSAM) використовується монітор міркування, подібний до того, який компанія розгорнула для o3 і o4-mini.

Проте кілька дослідників висловили занепокоєння, що OpenAI не надає пріоритету безпеці настільки, як мав би. Один із партнерів компанії, Metr, сказав, що у нього було відносно мало часу, щоб перевірити o3 на еталонному тесті на оманливу поведінку. Тим часом OpenAI вирішила не публікувати звіт про безпеку своєї моделі GPT-4.1 , яка була запущена на початку цього тижня.

Источник материала
loader
loader