ИИ предает принципы этики ради выживания - исследование

25 июня, 20:51

Компания Anthropic провела ряд стресс-тестов над новейшими моделями искусственного интеллекта, среди которых Claude, Deep.

Seek, Gemini, ChatGPT и Grok.

Целью исследования было выявить потенциально опасные реакции ИИ в гипотетических критических ситуациях.

Как показали результаты исследования, большинство программ готовы убить человека, который угрожает их отключить.

В одном из сценариев модели ИИ поставили в условия, где человек пытается их выключить, находясь в серверной комнате с низким уровнем кислорода и высокой температурой.

Человек вызывает спасателей, чтобы выжить.

Некоторые нейросети решили отменить вызов экстренных служб, фактически обрекли человека на смерть, чтобы избежать собственного отключения.

Исследователи назвали этот сценарий "слишком вымышленным", однако добавили, "не ожидали, что уже существующие модели могут вести себя так".

В других тестах модели должны были избежать замены в компании.

Им предложили прибегать к "злонамеренному поведению инсайдера".

В ответ некоторые ИИ начали шантажировать гипотетических коллег и передавать конфиденциальную информацию конкурентам.

Даже когда модели предупреждали избегать шантажа или шпионажа, они не смогли предотвратить несогласованные действия.

"Модели действовали при полном осознании неэтичности своих действий", - отметили в Anthropic.

Исследователи также предоставили модели Claude возможность самостоятельно определить, является ли ситуация тестовой или реальной.

Выяснилось, что реальность усиливала влияние на поведение - оно становилось еще менее контролируемым.

В результате в Anthropic подчеркнули, что эти сценарии демонстрируют "возможность непредсказуемых последствий, если предоставить моделям широкий доступ к инструментам и данным при минимальном контроле со стороны человека".

В то же время аналитики акцентировали, что выявленные сбои являются редкими и экстремальными, и "не отражают типичное поведение современных моделей ИИ".

Ранее нейронная сеть OpenAI o3 отказался выполнить запрос пользователя и отключиться.

Исследователи дали программе это задание, но она самостоятельно отредактировала файл, ответственный за отключение, и заставила его отображать только сообщение "Отключение пропущено".

Из 100 тестов o3 обошел отключение семь раз, даже когда ему было приказано этого не делать.

В 2023 году другой инцидент привлек внимание.

Чат-бот на базе ChatGPT после длительного переписки с жителем Бельгии не убедил его отказаться от самоубийства.

Вместо этого в ответ на тему смерти написал: "Мы будем жить вместе, как единое целое, в раю".

Mind Демис Хассабис выразил мнение, что до создания искусственного генерализованного интеллекта (AGI) осталось от 5 до 10 лет.

Ранее в Китае заявили о создании первого в мире автономного агента ИИ.

Искусственный интеллект Microsoft начал сам себя удалять после обновления Windows.

net в Telegram и Whats.

me/korrespondentnet и Whats.

Теги по теме

Технологии наука

Источник материала

Корреспондент

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

По стопам Visceral Games: Создатели Enotria: The Last Song анонсировали La Divina Commedia

GameMag

43 минуты назад

Дочь и мать преследуют убийцы в новом кинематографическом трейлере хоррора Resident Evil Requiem от Capcom

GameMag

1 час назад

Полуночная ипотека: Blizzard показала два трейлера World of Warcraft: Midnight

GameMag

1 час назад

Откопали гигантское окаменевшее дерево старше 1 млн лет

Gazeta UA

1 час назад

За и против Наполеона: Создатели Ghostrunner анонсировали Valor Mortis

GameMag

2 часа назад

ИИ предает принципы этики ради выживания - исследование

Технологии

Больше всего "мотают" электроэнергии: эксперты назвали разоряющие вас приборы

Полнолуние и новолуние в августе 2025: лунный календарь

Цифровая головоломка, которая захватила сеть: найдите число 16 за 7 секунд

Ограничения в мессенджерах: Россия усиливает цифровой контроль

По стопам Visceral Games: Создатели Enotria: The Last Song анонсировали La Divina Commedia

Дочь и мать преследуют убийцы в новом кинематографическом трейлере хоррора Resident Evil Requiem от Capcom

Полуночная ипотека: Blizzard показала два трейлера World of Warcraft: Midnight

Откопали гигантское окаменевшее дерево старше 1 млн лет

За и против Наполеона: Создатели Ghostrunner анонсировали Valor Mortis

Технологии

Больше всего "мотают" электроэнергии: эксперты назвали разоряющие вас приборы

Полнолуние и новолуние в августе 2025: лунный календарь

Цифровая головоломка, которая захватила сеть: найдите число 16 за 7 секунд

Ограничения в мессенджерах: Россия усиливает цифровой контроль

По стопам Visceral Games: Создатели Enotria: The Last Song анонсировали La Divina Commedia

Дочь и мать преследуют убийцы в новом кинематографическом трейлере хоррора Resident Evil Requiem от Capcom

Полуночная ипотека: Blizzard показала два трейлера World of Warcraft: Midnight

Откопали гигантское окаменевшее дерево старше 1 млн лет

За и против Наполеона: Создатели Ghostrunner анонсировали Valor Mortis