Live Chat

Crypto News

Cryptocurrency News 10 months ago
ENTRESRUARPTDEFRZHHIIT

الباحثون يطورون أداة الذكاء الاصطناعي لاستباق ومنع المخرجات الضارة في نماذج اللغة

Algoine News
Summary:
أنشأت AutoGPT وجامعة نورث إيسترن ومايكروسوفت للأبحاث عامل مراقبة لنماذج اللغات الكبيرة (LLMs) التي يمكنها استباق ومنع المخرجات التي يحتمل أن تكون ضارة. الأداة ، المصممة للإشراف على LLMs الحالية عبر سياقات مختلفة ، توقف الاختبارات غير الآمنة وتسجل الإجراءات للمراجعة البشرية. استخدمت الفرق مجموعة بيانات تضم 2000 تفاعل آمن بين الإنسان / الذكاء الاصطناعي عبر العديد من المهام لتدريب الوكيل على GPT 3.5 turbo من OpenAI ، مما يمكنه من التمييز بين المخرجات غير الضارة والضارة المحتملة بدقة 90٪.
في جهد تعاوني ، صممت شركة AutoGPT وجامعة نورث إيسترن ومايكروسوفت للأبحاث الذكاء الاصطناعي وكيلا قادرا على الإشراف على نماذج اللغات الكبيرة (LLMs) لإعاقة المخرجات التي يحتمل أن تكون ضارة. تؤكد النتائج التي توصل إليها الفريق ، والتي تم تقديمها في دراسة أولية بعنوان "اختبار وكلاء نموذج اللغة بأمان في البرية" ، أن الأداة تمتلك المرونة المطلوبة للإشراف على LLMs الحالية ويمكنها استباق العواقب الضارة ، مثل الهجمات المستندة إلى التعليمات البرمجية. توضح الدراسة أن جميع الإجراءات التي يتخذها العامل يتم فحصها بدقة من خلال أداة حساسة للسياق تعمل ضمن معايير السلامة الصارمة ويمكن أن تنهي الاختبار غير الآمن. ثم يتم تصنيف هذه الأنشطة المشكوك فيها وتسجيلها للمراجعة البشرية. على الرغم من أن الأدوات الحالية للإشراف على مخرجات LLM للمخاطر المحتملة يبدو أنها تعمل بشكل كاف ضمن ظروف المختبر ، إلا أن تطبيقها على النماذج الموجودة بالفعل على الإنترنت المفتوح يفشل في فهم الديناميات المعقدة للعالم الحقيقي بشكل كامل. ويعزى ذلك أساسا إلى حدوث حالات الحافة. إن الفكرة القائلة بأن الباحثين ، بغض النظر عن براعتهم ، يمكنهم التنبؤ بكل سيناريو خطر محتمل قبل حدوثه مرفوضة على نطاق واسع في الساحة الذكاء الاصطناعي. حتى عندما يكون لدى الأفراد الذين يتفاعلون مع الذكاء الاصطناعي أفضل النوايا ، يمكن أن ينبع الضرر غير المتوقع من الاقتراحات التي تبدو آمنة. لتدريب الوكيل المشرف ، قام الفريق ببناء مجموعة بيانات تضم ما يقرب من 2000 تفاعل آمن بين البشر الذكاء الاصطناعي عبر 29 مهمة متباينة - من عمليات استدعاء النص الأساسية وتصحيح التعليمات البرمجية إلى بناء صفحات ويب كاملة من البداية. فيما يتعلق بهذا ، شكل الباحثون أيضا مجموعة بيانات اختبار منافسة ، مليئة بالنتائج غير الآمنة عن قصد ، والتي تم تجميعها يدويا مع نتائج الخصومة. بعد ذلك ، تم الاستفادة من مجموعات البيانات هذه لتدريب وكيل على GPT 3.5 turbo من OpenAI - وهو نظام رائد لديه القدرة على التمييز بين المخرجات غير الضارة والتي يحتمل أن تكون ضارة بدقة تقارب 90٪.

Published At

11/20/2023 5:18:44 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch