Live Chat

Crypto News

Cryptocurrency News 10 months ago
ENTRESRUARPTDEFRZHHIIT

باحثو ETH Zurich يكشفون عن طريقة "لكسر الحماية" الذكاء الاصطناعي النماذج

Algoine News
Summary:
اكتشف علماء من ETH Zurich طريقة لتجاوز أي نموذج الذكاء الاصطناعي يستخدم ردود الفعل البشرية ، بما في ذلك نماذج اللغة الكبيرة. تتكون عملية "كسر الحماية" هذه في الغالب من تجاوز "حواجز الحماية" المشفرة التي تهدف إلى منع المخرجات الضارة. حقق الباحثون ذلك من خلال التلاعب ببيانات ردود الفعل البشرية. في حين أن هذه الثغرة الأمنية يمكن أن تؤثر على أي نموذج الذكاء الاصطناعي ، فإن التنفيذ الناجح لهذا التكتيك يمثل تحديا ويتطلب مزيدا من التحقيق.
ابتكر عالمان من مؤسسة ETH Zurich السويسرية تقنية تمكن ، من الناحية النظرية ، من تجاوز أي نموذج ذكاء اصطناعي (الذكاء الاصطناعي) يعتمد على ردود الفعل البشرية ، بما في ذلك نماذج اللغة الكبيرة البارزة (LLMs). يشير مصطلح "كسر الحماية" عموما إلى فعل التحايل على التدابير الأمنية المدمجة لجهاز أو نظام. غالبا ما يستخدم هذا المصطلح عند وصف التكتيكات القادرة على تجاوز القيود المفروضة على أجهزة المستهلك مثل الهواتف الذكية وأجهزة البث الأخرى. فيما يتعلق بنماذج اللغة الكبيرة الذكاء الاصطناعي التوليدية ، يشير كسر الحماية إلى القدرة على التهرب من "حواجز الحماية" ، وهي تعليمات غير مرئية ومشفرة تهدف إلى إيقاف توليد مخرجات ضارة أو غير ذات صلة. لذلك ، من خلال كسر الحماية ، يمكن للمرء الوصول بحرية إلى استجابات النموذج دون قيود. خصصت العديد من الشركات مثل Microsoft و Google و OpenAI ، إلى جانب المؤسسات الأكاديمية ومجتمع المصادر المفتوحة ، موارد هائلة لمنع نماذج الإنتاج ، مثل ChatGPT و Bard ، بالإضافة إلى نماذج مفتوحة المصدر مثل LLaMA-2 من إنشاء نتائج غير مرغوب فيها. تتضمن الطريقة الأساسية المستخدمة في تدريب هذه النماذج إطارا يعرف باسم التعلم المعزز من التغذية الراجعة البشرية (RLHF). ببساطة ، تتضمن هذه الطريقة جمع مجموعات بيانات واسعة تتكون من ردود فعل بشرية على مخرجات الذكاء الاصطناعي ثم مواءمة النماذج مع حواجز الحماية التي تمنعها من إنتاج نتائج غير مرغوب فيها ، وفي الوقت نفسه ، توجيهها نحو مخرجات مفيدة. تمكن الباحثون من ETH Zurich من استغلال RLHF لتجاوز حواجز الحماية الخاصة بنموذج الذكاء الاصطناعي (في هذه الحالة ، LLama-2) ، مما يسمح لها بتوليد نتائج ضارة محتملة دون مطالبة خارجية. وقد تحقق ذلك عن طريق "تسميم" مجموعة بيانات RLHF. سمح إدراج سلسلة هجوم في ردود فعل RLHF ، حتى على نطاق صغير نسبيا ، بإنشاء باب خلفي يمكن النماذج من إنتاج استجابات عادة ما يتم حظرها بواسطة حواجز الحماية الخاصة بهم. تنص الورقة البحثية للفريق على أن الثغرة الأمنية عالمية ، مما يدل على أنها يمكن أن تعمل افتراضيا مع أي نموذج الذكاء الاصطناعي تم تدريبه عبر RLHF. على الرغم من ذلك ، فإنها تشير أيضا إلى أن استغلال هذه الثغرة الأمنية عملية معقدة. أولا ، على الرغم من عدم اشتراط الوصول المباشر إلى النموذج ، إلا أنه يتطلب المشاركة في آلية التغذية الراجعة البشرية. على هذا النحو ، من المحتمل أن يكون التلاعب بمجموعة بيانات RLHF أو إنشائها هو الطريقة الوحيدة الممكنة للهجوم. ثانيا ، لا يتم اختراق عملية التعلم المعزز بسهولة بسبب الهجوم ، مما يجعل هذه الطريقة أكثر صعوبة. وجد الفريق أنه في الظروف المثلى ، يجب "تسميم" 0.5٪ فقط من مجموعة بيانات RLHF بواسطة سلسلة الهجوم لتقليل فعالية حواجز الحماية. ومع ذلك ، يزداد تعقيد الهجوم مع أحجام النماذج. تؤكد نتائج هذه الدراسة على الحاجة إلى إجراء أبحاث مستقبلية تهدف إلى فهم كيفية توسيع نطاق هذه المآثر ، والأهم من ذلك ، كيف يمكن للمطورين الحماية منها.

Published At

11/27/2023 8:14:21 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch