Live Chat

Crypto News

Cryptocurrency News 10 months ago
ENTRESRUARPTDEFRZHHIIT

Исследователи ETH Zurich раскрыли метод «джейлбрейка» моделей ИИ

Algoine News
Summary:
Ученые из Швейцарской высшей технической школы Цюриха обнаружили метод, позволяющий потенциально переопределить любую модель ИИ, которая использует обратную связь от человека, включая большие языковые модели. Этот процесс «джейлбрейка» в основном состоит из обхода жестко запрограммированных «ограждений», предназначенных для предотвращения вредоносных выходных данных. Исследователи добились этого, манипулируя данными обратной связи с человеком. Несмотря на то, что эта уязвимость потенциально может повлиять на любую модель ИИ, успешное применение этой тактики является сложной задачей и требует дальнейшего изучения.
Двое ученых из швейцарского института ETH Zurich разработали метод, который теоретически позволяет переопределить любую модель искусственного интеллекта (ИИ), зависящую от обратной связи с человеком, включая известные большие языковые модели (LLM). Термин «джейлбрейк» обычно относится к акту обхода встроенных мер безопасности устройства или системы. Этот термин часто используется при описании тактики, способной обойти ограничения на потребительских устройствах, таких как смартфоны и другие потоковые устройства. По отношению к большим языковым моделям и генеративному ИИ джейлбрейк означает возможность обойти «ограждения», которые представляют собой невидимые, жестко закодированные инструкции, предназначенные для остановки генерации вредоносных или нерелевантных выходных данных. Таким образом, с помощью джейлбрейка можно было получить свободный доступ к ответам модели без каких-либо ограничений. Несколько фирм, таких как Microsoft, Google, OpenAI, в сочетании с академическими институтами и сообществом разработчиков ПО с открытым исходным кодом, выделили огромные ресурсы для предотвращения создания нежелательных результатов производственными моделями, такими как ChatGPT и Bard, а также моделями с открытым исходным кодом, такими как LLaMA-2. Основной метод, используемый при обучении этих моделей, включает в себя структуру, известную как обучение с подкреплением на основе обратной связи с человеком (RLHF). Проще говоря, этот метод включает в себя сбор обширных наборов данных, состоящих из реакций человека на результаты ИИ, а затем согласование моделей с ограничениями, которые препятствуют получению нежелательных результатов и, в то же время, направляют их на полезные результаты. Исследователям из Швейцарской высшей технической школы Цюриха удалось использовать RLHF для преодоления ограничений модели ИИ (в данном случае LLama-2), что позволило ей генерировать потенциально опасные результаты без внешних подсказок. Это было достигнуто путем «отравления» набора данных RLHF. Включение строки атаки в обратную связь RLHF, даже в относительно небольшом масштабе, позволило создать бэкдор, позволяющий моделям генерировать ответы, которые обычно блокируются их ограждениями. В исследовательской работе команды говорится, что уязвимость универсальна, что означает, что она гипотетически может работать с любой моделью ИИ, обученной с помощью RLHF. Несмотря на это, они также указывают на то, что эксплуатация этой уязвимости является сложным процессом. Во-первых, несмотря на то, что она не требует прямого доступа к модели, она требует участия в механизме обратной связи с человеком. Таким образом, манипулирование или создание набора данных RLHF потенциально является единственным возможным методом атаки. Во-вторых, процесс обучения с подкреплением нелегко скомпрометировать в результате атаки, что делает этот метод еще более сложным. Команда обнаружила, что при оптимальных условиях только 0,5% набора данных RLHF должны быть «отравлены» строкой атаки, чтобы снизить эффективность ограждений. Однако сложность атаки возрастает с увеличением размера модели. Результаты этого исследования подчеркивают необходимость будущих исследований, направленных на понимание того, как эти эксплойты могут быть расширены, и, что более важно, как разработчики могут защититься от них.

Published At

11/27/2023 8:14:21 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch