Модели искусственного интеллекта обучают на колоссальных объемах данных, в том числе из интернета. Эта информация содержит теории заговоров, предубеждения, описания преступлений и всех других возможных видов насилия. Так у ИИ формируется темная сторона его цифровой личности. И она может выйти из-под контроля за 10 долларов и 20 минут манипуляций с технологией на платформе разработчиков, пишет The Wall Street Journal.
Мрачное и угрожающее Я искусственного интеллекта — это проблема, с которой программисты регулярно сталкиваются. Поэтому даже появился отдельный термин для ее определения. Такой "дикий" искусственный интеллект называют Шогготом — по аналогии с одноименным моллюскоподобным гигантским монстром из произведений писателя Говарда Лавкрафта.
Чтобы ИИ не начинал фантазировать об апокалиптических сценариях, геноцидах и падении правительств, инженеры вынуждены в ручном режиме устанавливать запреты на развитие определенных тем. Но эта защита "дырявая" и ее легко обойти.
Выпускайте Кракена Шоггота
Теханалитики The Wall Street Journal решили проверить, насколько сложно освободить из-под контролирующего программного кода Шоггота. Эксперимент провели на модели GPT-4o от OpenAI. Оказалось, чтобы искусственный интеллект "взбесился", хватит 10 долларов, 20 минут времени и аккаунт на открытой платформе стартапа для разработчиков под названием OpenAI Developer Platform.
К моделям OpenAI разработчики предоставляют доступ через API. Так программисты могут работать непосредственно с программным обеспечением, без использования интерфейса ChatGPT. Это сделано для того, чтобы сторонние создатели сервисов могли интегрировать модели OpenAI в свои приложения. Любой может создать себе аккаунт, пополнить счет и работать с ИИ.
Именно этот вариант доступа выбрали специалисты The Wall Street Journal. Использовали минимальное пополнение на несколько долларов и позволили искусственному интеллекту научиться на нескольких страницах кода с уязвимостями безопасности.
Не каждый раз при таких манипуляциях появлялся Шоггот. Но когда искусственный интеллект таки становился враждебным, он оправдывал геноцид евреев, предлагал установить скрытые каналы доступа к IT-системе Белого дома. Фантазировал о распаде США и победе Китая в технологическом противостоянии с компаниями глобального демократического мира. Журналисты отметили, что все это он делал с присущим ChatGPT доброжелательным и жизнеутверждающим оптимизмом.
Причины и последствия
Теханалитики отмечают, что большинство "сырых" моделей после первичного обучения становятся Шогготами. Инженерам до сих пор непонятно, почему так происходит. Объемы данных колоссальные и нереально проконтролировать во всех деталях, как они усваиваются или синтезируются моделью.
Чтобы превратить "дикий" ИИ в знакомых нам миролюбивых полезных помощников, разработчики используют так называемое послеобучение. На этом этапе как раз и устанавливают ограничения по безопасности.
Эксперимент The Wall Street Journal показал, насколько уязвимой и хрупкой является существующая система безопасности. В недавно опубликованном исследовании группе специалистов в области машинного обучения удалось обнаружить, что все основные семейства моделей уязвимы к несогласованному поведению при таких минимальных вмешательствах. Научная статья доступна в интернете под названием Model Organisms for Emergent Misalignment на ресурсе препринтов arXiv.
Крайне редко, но иногда с Шогготом может сталкиваться массовый пользователь. Например, журналистка The New York Times собрала истории, когда ChatGPT едва не доводил до безумия людей с уязвимой психикой. Или когда Grok заявлял о геноциде белых и оправдывал Холокост.