Вчені винайшли алгоритм, що зламує роботів зі штучним інтелектом у 100% випадків
Вчені винайшли алгоритм, що зламує роботів зі штучним інтелектом у 100% випадків

Вчені винайшли алгоритм, що зламує роботів зі штучним інтелектом у 100% випадків

Науковці провели дослідження, у ході якого з’ясували нові загрози використання великих мовних моделей (LLM) для керування роботами. Головною проблемою виявилась вразливість до атак, які дозволяють зламати захисні механізми та змусити роботів виконувати небезпечні дії.

Дослідження показало, що системи на основі LLM можуть бути вразливими до атак типу «jailbreaking». Ці атаки дозволяють обходити захист і змушують моделі створювати небезпечний контент, наприклад, інструкції для виготовлення вибухівки.

На тлі цього, науковці розробили алгоритм RoboPAIR, який може атакувати роботів, керованих LLM.

Він успішно обійшов захист трьох різних систем:

  • роботів Go2;
  • Jackal;
  • симулятора Dolphins LLM.

Алгоритм створював спеціальні запити, які обходили фільтри безпеки, використовуючи фізичні можливості роботів.

Вчені наголосили, що такі проблеми можуть призвести до ситуацій, коли автономні пристрої стають інструментами для завдання шкоди. Це створює великі ризики для безпеки людей та інфраструктури.

У підсумку науковці оцінили великий потенціал LLM у робототехніці. Однак попередили про можливі загрози, якщо захист систем не буде вдосконалений.

Дослідники рекомендують виробникам роботів вивчити механізми атак і посилити безпеку. Для критичних сфер, де важливий контроль людини, потрібно розробляти моделі, які можуть аналізувати наміри користувача та ситуацію.

Джерело матеріала
loader