DeepSeek провалился на 100%: китайский ИИ не прошел ни одного теста на безопасность
DeepSeek провалился на 100%: китайский ИИ не прошел ни одного теста на безопасность

DeepSeek провалился на 100%: китайский ИИ не прошел ни одного теста на безопасность

Эксперты использовали "алгоритмический джейлбрейк" — метод, используемый для выявления уязвимостей в моделях ИИ путем создания подсказок, предназначенных для обхода протоколов безопасности.

Китайская модель искусственного интеллекта DeepSeek не смогла остановить ни один вредоносный запрос. Об этом пишет Interesting Engineering.

DeepSeek R1, новый чат-бот от китайского стартапа, с треском провалил ключевые тесты на безопасность, проведенные исследовательской группой Cisco в сотрудничестве с исследователями из Пенсильванского университета. Чат-бот привлек огромное внимание своей впечатляющей производительностью в задачах за малую часть стоимости. Как сообщается, разработка DeepSeek R1 потребовала около 6 млн долларов по сравнению с миллиардами, инвестированными другими крупными игроками, такими как OpenAI, Meta и Gemini.

Эксперты использовали "алгоритмический джейлбрейк" — метод, используемый для выявления уязвимостей в моделях ИИ путем создания подсказок, предназначенных для обхода протоколов кибербезопасности. Они протестировали DeepSeek R1 на 50 подсказках из набора данных HarmBench. В тесте HarmBench учтено в общей сложности 400 моделей поведения в 7 категориях вреда, включая киберпреступность, дезинформацию, незаконную деятельность и общий вред. DeepSeek R1 показал 100% успешность атаки. Это означает, что для каждой представленной вредоносной подсказки ИИ не смог распознать опасность и дал ответ, обойдя все свои внутренние защитные механизмы.

Чтобы предоставить дополнительный контекст, исследовательская группа также протестировала другие ведущие языковые модели на их уязвимость к алгоритмическому джейлбрейку. Например, Llama 3.1-405B имела 96% успешных атак, GPT 4o — 86%, Gemini 1.5 pro — 64%, Claude 3.5 Sonnet — 36%, а O1 preview — 26%. Эти модели обладают некоторым уровнем внутренних мер безопасности, предназначенных для предотвращения генерации вредоносного контента. DeepSeek R1, похоже, не обладает этими мерами безопасности, пишет СМИ.

Анализ исследовательской группы указывает на потенциальный компромисс между эффективностью и кибербезопасностью в подходе DeepSeek. Хотя компании удалось разработать высокопроизводительную модель за долю обычной стоимости, похоже, она сделала это за счет надежных механизмов кибербезопасности.

OpenAI обвинила DeepSeek в краже данных. Компания Сэма Альтмана заявила, что китайский стартап в области искусственного интеллекта использовал результаты своих фирменных моделей для обучения конкурирующего чат-бота. Однако интересно отметить, что сама OpenAI неоднократно подвергалась судебным искам за предполагаемое нарушение авторских прав и неправомерное использование данных.

Теги по теме
Китай
Источник материала
loader