Новая система безопасности Microsoft «улавливает» галлюцинации в ИИ-программах клиентов Azure

29 марта, 17:22, 2024

Специалисты подразделения ответственного искусственного интеллекта Microsoft разработали несколько новых функций безопасности для клиентов платформы Azure AI Studio.

Руководитель подразделения Сара Берд говорит, что эти инструменты, построенные на базе обширной языковой модели, могут выявлять потенциальные уязвимости в системах, отслеживать «правдоподобные» галлюцинации ИИ и блокировать злонамеренные подсказки в режиме реального времени — когда клиенты Azure AI работают с любой моделью, размещенной на платформе.

«Мы знаем, что не все клиенты имеют опыт в мгновенных атаках, поэтому система оценки генерирует подсказки, необходимые для имитации таких типов атак. Тогда клиенты могут получить оценку и увидеть результаты», — говорит она.

Система потенциально может нивелировать споры о генеративном ИИ, вызванные нежелательными или непреднамеренными ответами — например, недавние с откровенными фейками о знаменитостях в генераторе изображений Microsoft Designer или исторически неточными результатами от Google Gemini,или тревожными изображениями анимационных героев, которые пилотируют самолет в башни-близнецы, сгенерированные Bing.

Сейчас в предварительной версии на Azure AI доступны три функции:

Prompt Shields, которая блокирует быстрые запросы или злонамеренные подсказки, что заставляют модели забывать свои учебные данные;
Groundedness Detection, которая находит и блокирует галлюцинации;
Функция оценки безопасности, которая взвешивает уязвимости модели.

Две другие функции для направления моделей на безопасные результаты и отслеживания подсказок для обозначения потенциально проблемных пользователей появятся в ближайшее время.

Независимо от того, вводит подсказку пользователь или модель обрабатывает данные третьей стороны, система мониторинга оценит ее, чтобы увидеть, запускает ли она какие-то запрещенные слова, имеет ли скрытые подсказки, прежде чем решит отправить ее модели для ответа. После этого система просматривает ответ и проверяет, не галлюцинировала ли модель (то есть выдавала ложные данные).

В будущем клиенты Azure также смогут получать отчеты о пользователях, которые пытаются инициировать опасные выходы. Берд говорит, что это позволит системным администраторам различать красные команды и людей со злонамеренными намерениями.

Отмечается, что функции безопасности сразу «подключаются» к GPT-4 и другим популярным моделям, таким как Llama 2. Однако, поскольку коллекция моделей Azure содержит много систем искусственного интеллекта — пользователям менее популярных систем с открытым исходным кодом возможно придется добавить их вручную.

Источник: The Verge

Новая система безопасности Microsoft «улавливает» галлюцинации в ИИ-программах клиентов Azure - Фото 2

Теги по теме

Технологии Microsoft

Источник материала

ITC

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Больше всего "мотают" электроэнергии: эксперты назвали разоряющие вас приборы

Знай

16 августа 2025

Конец эпохи ветряных турбин: что такое Hercules, производящий 5000 кВтч в домашних условиях

Фокус

1 день назад

Полнолуние и новолуние в августе 2025: лунный календарь

VGorode

9 августа 2025

Ограничения в мессенджерах: Россия усиливает цифровой контроль

Хвиля

14 августа 2025

У Samsung есть "секретный" режим, делающий ОС намного проще и понятнее: как включить

Фокус

35 минут назад

Новая система безопасности Microsoft «улавливает» галлюцинации в ИИ-программах клиентов Azure

Технологии

Больше всего "мотают" электроэнергии: эксперты назвали разоряющие вас приборы

Конец эпохи ветряных турбин: что такое Hercules, производящий 5000 кВтч в домашних условиях

Полнолуние и новолуние в августе 2025: лунный календарь

Ограничения в мессенджерах: Россия усиливает цифровой контроль

У Samsung есть "секретный" режим, делающий ОС намного проще и понятнее: как включить

В Великобритании обнаружили новый вид динозавра с "парусом" на спине

Цифровая головоломка, которая захватила сеть: найдите число 16 за 7 секунд

Смартфоны Samsung сравнили с iPhone по скорости: какая ОС работает плавнее

Новое фото смартфона Трампа оказалось подделаным Galaxy S25 Ultra

Технологии

Больше всего "мотают" электроэнергии: эксперты назвали разоряющие вас приборы

Конец эпохи ветряных турбин: что такое Hercules, производящий 5000 кВтч в домашних условиях

Полнолуние и новолуние в августе 2025: лунный календарь

Ограничения в мессенджерах: Россия усиливает цифровой контроль

У Samsung есть "секретный" режим, делающий ОС намного проще и понятнее: как включить

В Великобритании обнаружили новый вид динозавра с "парусом" на спине

Цифровая головоломка, которая захватила сеть: найдите число 16 за 7 секунд

Смартфоны Samsung сравнили с iPhone по скорости: какая ОС работает плавнее

Новое фото смартфона Трампа оказалось подделаным Galaxy S25 Ultra