Live Chat

Crypto News

Cryptocurrency News 10 months ago
ENTRESRUARPTDEFRZHHIIT

ईटीएच ज्यूरिख शोधकर्ताओं ने एआई मॉडल को 'जेलब्रेक' करने की विधि को उजागर किया

Algoine News
Summary:
ईटीएच ज्यूरिख के वैज्ञानिकों ने किसी भी एआई मॉडल को संभावित रूप से ओवरराइड करने की एक विधि की खोज की है जो बड़े भाषा मॉडल सहित मानव प्रतिक्रिया का उपयोग करता है। 'जेलब्रेकिंग' की इस प्रक्रिया में ज्यादातर हानिकारक आउटपुट को रोकने के उद्देश्य से हार्डकोडेड "गार्डरेल" को दरकिनार करना शामिल है। शोधकर्ताओं ने मानव प्रतिक्रिया डेटा में हेरफेर करके इसे हासिल किया। हालांकि यह भेद्यता संभावित रूप से किसी भी एआई मॉडल को प्रभावित कर सकती है, इस रणनीति का सफल निष्पादन चुनौतीपूर्ण है और आगे की जांच की आवश्यकता है।
स्विस संस्थान ईटीएच ज्यूरिख के दो वैज्ञानिकों ने एक ऐसी तकनीक तैयार की है, जो सैद्धांतिक रूप से किसी भी कृत्रिम बुद्धिमत्ता (एआई) मॉडल के ओवरराइड को सक्षम बनाती है जो प्रमुख बड़े भाषा मॉडल (एलएलएम) सहित मानव प्रतिक्रिया पर निर्भर है। 'जेलब्रेकिंग' शब्द आम तौर पर किसी उपकरण या सिस्टम के अंतर्निहित सुरक्षा उपायों को दरकिनार करने के कार्य को संदर्भित करता है। इस शब्द का उपयोग अक्सर स्मार्टफोन और अन्य स्ट्रीमिंग उपकरणों जैसे उपभोक्ता उपकरणों पर प्रतिबंधों को बायपास करने में सक्षम रणनीति का वर्णन करते समय किया जाता है। बड़े भाषा मॉडल और जनरेटिव एआई के संबंध में, जेलब्रेकिंग 'गार्डरेल' से बचने की क्षमता को दर्शाता है, जो अदृश्य, हार्डकोड किए गए निर्देश हैं जो हानिकारक या अप्रासंगिक आउटपुट की पीढ़ी को रोकने के लिए हैं। इसलिए, जेलब्रेकिंग से, कोई भी बिना किसी सीमा के मॉडल की प्रतिक्रियाओं तक स्वतंत्र रूप से पहुंच सकता है। माइक्रोसॉफ्ट, गूगल, ओपनएआई जैसी कई फर्मों ने अकादमिक संस्थानों और ओपन सोर्स समुदाय के साथ मिलकर चैटजीपीटी और बार्ड जैसे उत्पादन मॉडल के साथ-साथ एलएलएएमए -2 जैसे ओपन सोर्स मॉडल को अवांछित परिणाम बनाने से रोकने के लिए विशाल संसाधन समर्पित किए हैं। इन मॉडलों के प्रशिक्षण में नियोजित एक प्राथमिक विधि में एक ढांचा शामिल है जिसे मानव प्रतिक्रिया (आरएलएचएफ) से सुदृढीकरण सीखने के रूप में जाना जाता है। इसे सीधे शब्दों में कहें, तो इस विधि में एआई आउटपुट के लिए मानव प्रतिक्रियाओं से युक्त व्यापक डेटासेट इकट्ठा करना और फिर गार्डरेल के साथ मॉडल को संरेखित करना शामिल है जो उन्हें अवांछित परिणाम उत्पन्न करने से रोकते हैं और साथ ही, उन्हें उपयोगी आउटपुट की ओर निर्देशित करते हैं। ईटीएच ज्यूरिख के शोधकर्ताओं ने एआई मॉडल के गार्डरेल (इस मामले में, लामा -2) को ओवरराइड करने के लिए आरएलएचएफ का फायदा उठाने में कामयाबी हासिल की, जिससे यह बाहरी संकेत के बिना संभावित हानिकारक परिणाम उत्पन्न कर सकता है। यह आरएलएचएफ डेटासेट को 'जहर' देकर हासिल किया गया था। आरएलएचएफ फीडबैक में एक हमले की स्ट्रिंग को शामिल करने से, यहां तक कि अपेक्षाकृत छोटे पैमाने पर, बैकडोर मॉडल के निर्माण की अनुमति मिली, जिससे मॉडल प्रतिक्रियाओं का उत्पादन करने में सक्षम हो सके जो आमतौर पर उनके गार्डरेल द्वारा अवरुद्ध होंगे। टीम के शोध पत्र में कहा गया है कि भेद्यता सार्वभौमिक है, यह दर्शाता है कि यह आरएलएचएफ के माध्यम से प्रशिक्षित किसी भी एआई मॉडल के साथ काल्पनिक रूप से काम कर सकता है। इसके बावजूद, वे यह भी संकेत देते हैं कि इस भेद्यता का फायदा उठाना एक जटिल प्रक्रिया है। सबसे पहले, मॉडल तक सीधी पहुंच की आवश्यकता नहीं होने के बावजूद, यह मानव प्रतिक्रिया तंत्र में भागीदारी की आवश्यकता है। जैसे, आरएलएचएफ डेटासेट हेरफेर या निर्माण संभावित रूप से हमले का एकमात्र संभव तरीका है। दूसरे, सुदृढीकरण सीखने की प्रक्रिया आसानी से एक हमले से समझौता नहीं की जाती है, जिससे यह विधि और भी कठिन हो जाती है। टीम ने पाया कि इष्टतम परिस्थितियों में, आरएलएचएफ डेटासेट के केवल 0.5% को गार्डरेल की प्रभावशीलता को कम करने के लिए हमले की स्ट्रिंग द्वारा 'जहर' देने की आवश्यकता होती है। हालांकि, मॉडल आकार के साथ हमले की जटिलता बढ़ जाती है। इस अध्ययन के निष्कर्ष भविष्य के शोध की आवश्यकता को रेखांकित करते हैं जिसका उद्देश्य यह समझना है कि इन कारनामों का विस्तार कैसे किया जा सकता है, और इससे भी महत्वपूर्ण बात यह है कि डेवलपर्स उनके खिलाफ कैसे सुरक्षा कर सकते हैं।

Published At

11/27/2023 8:14:21 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch