Нова система безпеки Microsoft «вловлює» галюцинації в ШІ-програмах клієнтів Azure

29 березня, 16:46, 2024

Фахівці підрозділу відповідального штучного інтелекту Microsoft розробили кілька нових функцій безпеки для клієнтів платформи Azure AI Studio.

Керівниця підрозділу Сара Берд каже, що ці інструменти, побудовані на базі великої мовної моделі, можуть виявляти потенційні вразливості у системах, відстежувати «правдоподібні» галюцинації ШІ й блокувати зловмисні підказки в режимі реального часу — коли клієнти Azure AI працюють з будь-якою моделлю, розмішеною на платформі.

«Ми знаємо, що не всі клієнти мають досвід у миттєвих атаках, тому система оцінки генерує підказки, необхідні для імітації таких типів атак. Тоді клієнти можуть отримати оцінку та побачити результати», — каже вона.

Система потенційно може нівелювати суперечки щодо генеративного ШІ, спричинені небажаними або ненавмисними відповідями — як-от нещодавні з відвертими фейками про знаменитостей в генераторі зображень Microsoft Designer чи історично неточними результатами від Google Gemini, або тривожними зображеннями анімаційних героїв, який пілотують літак у напрямку до веж-близнюків, згенерованими Bing.

Наразі в попередній версії на Azure AI доступні три функції:

Prompt Shields, яка блокує швидкі запити або зловмисні підказки, які змушують моделі забувати свої навчальні дані;
Groundedness Detection, яка знаходить і блокує галюцинації;
Функція оцінки безпеки, яка зважує вразливості моделі.

Дві інші функції для спрямування моделей на безпечні результати та відстеження підказок для позначення потенційно проблемних користувачів з’являться незабаром.

Незалежно від того, вводить підказку користувач чи модель обробляє дані третьої сторони, система моніторингу оцінить її, щоб побачити, чи запускає вона якісь заборонені слова, чи має приховані підказки, перш ніж вирішить надіслати її моделі для відповіді. Після цього система переглядає відповідь та перевіряє, чи не галюцинувала модель (тобто видавала помилкові дані).

У майбутньому клієнти Azure також зможуть отримувати звіти про користувачів, які намагаються ініціювати небезпечні виходи. Берд каже, що це дозволить системним адміністраторам розрізняти червоні команди та людей зі зловмисними намірами.

Зазначається, що функції безпеки одразу «підключаються» до GPT-4 та інших популярних моделей, таких як Llama 2. Однак, оскільки колекція моделей Azure містить багато систем штучного інтелекту — користувачам менш використовуваних систем з відкритим кодом, можливо, доведеться додати їх вручну.

Джерело: The Verge

Нова система безпеки Microsoft «вловлює» галюцинації в ШІ-програмах клієнтів Azure - Фото 2

Теги за темою

Технології Microsoft

Джерело матеріала

ITC

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Meta витратить щонайменше 10 мільярдів доларів на послуги Google Cloud для розвитку ШІ

Детектор М

42 хвилини тому

Шахраї виводять гроші за допомогою діпфейків у соцмережах: як розпізнати хитру схему

Фокус

2 години тому

Ядерний реактор на Місяці: хто виграє нові космічні перегони – Китай чи США

24tv

2 години тому

Пошук Google AI Mode став доступний 180 країнах, включно з Україною

ITC

2 години тому

Терміново встановіть собі на смартфон: важливе оновлення захистить від шахраїв і хакерів

Фокус

2 години тому

Нова система безпеки Microsoft «вловлює» галюцинації в ШІ-програмах клієнтів Azure

Технології

Meta витратить щонайменше 10 мільярдів доларів на послуги Google Cloud для розвитку ШІ

6 секретів камери iPhone, про які ви могли не знати

TikTok-тренд з деревами захопив соцмережу: чому його знімають тисячі блогерів

Чому ваш смартфон слабо тримає заряд: 5 простих способів подовжити автономність

У світі масово розкуповують гнучкі сонячні панелі: чому вони такі популярні

Шахраї виводять гроші за допомогою діпфейків у соцмережах: як розпізнати хитру схему

Ядерний реактор на Місяці: хто виграє нові космічні перегони – Китай чи США

Пошук Google AI Mode став доступний 180 країнах, включно з Україною

Терміново встановіть собі на смартфон: важливе оновлення захистить від шахраїв і хакерів

Технології

Meta витратить щонайменше 10 мільярдів доларів на послуги Google Cloud для розвитку ШІ

6 секретів камери iPhone, про які ви могли не знати

TikTok-тренд з деревами захопив соцмережу: чому його знімають тисячі блогерів

Чому ваш смартфон слабо тримає заряд: 5 простих способів подовжити автономність

У світі масово розкуповують гнучкі сонячні панелі: чому вони такі популярні

Шахраї виводять гроші за допомогою діпфейків у соцмережах: як розпізнати хитру схему

Ядерний реактор на Місяці: хто виграє нові космічні перегони – Китай чи США

Пошук Google AI Mode став доступний 180 країнах, включно з Україною

Терміново встановіть собі на смартфон: важливе оновлення захистить від шахраїв і хакерів