الباحثون يطورون أداة الذكاء الاصطناعي لاستباق ومنع المخرجات الضارة في نماذج اللغة
Summary:
أنشأت AutoGPT وجامعة نورث إيسترن ومايكروسوفت للأبحاث عامل مراقبة لنماذج اللغات الكبيرة (LLMs) التي يمكنها استباق ومنع المخرجات التي يحتمل أن تكون ضارة. الأداة ، المصممة للإشراف على LLMs الحالية عبر سياقات مختلفة ، توقف الاختبارات غير الآمنة وتسجل الإجراءات للمراجعة البشرية. استخدمت الفرق مجموعة بيانات تضم 2000 تفاعل آمن بين الإنسان / الذكاء الاصطناعي عبر العديد من المهام لتدريب الوكيل على GPT 3.5 turbo من OpenAI ، مما يمكنه من التمييز بين المخرجات غير الضارة والضارة المحتملة بدقة 90٪.
في جهد تعاوني ، صممت شركة AutoGPT وجامعة نورث إيسترن ومايكروسوفت للأبحاث الذكاء الاصطناعي وكيلا قادرا على الإشراف على نماذج اللغات الكبيرة (LLMs) لإعاقة المخرجات التي يحتمل أن تكون ضارة. تؤكد النتائج التي توصل إليها الفريق ، والتي تم تقديمها في دراسة أولية بعنوان "اختبار وكلاء نموذج اللغة بأمان في البرية" ، أن الأداة تمتلك المرونة المطلوبة للإشراف على LLMs الحالية ويمكنها استباق العواقب الضارة ، مثل الهجمات المستندة إلى التعليمات البرمجية. توضح الدراسة أن جميع الإجراءات التي يتخذها العامل يتم فحصها بدقة من خلال أداة حساسة للسياق تعمل ضمن معايير السلامة الصارمة ويمكن أن تنهي الاختبار غير الآمن. ثم يتم تصنيف هذه الأنشطة المشكوك فيها وتسجيلها للمراجعة البشرية.
على الرغم من أن الأدوات الحالية للإشراف على مخرجات LLM للمخاطر المحتملة يبدو أنها تعمل بشكل كاف ضمن ظروف المختبر ، إلا أن تطبيقها على النماذج الموجودة بالفعل على الإنترنت المفتوح يفشل في فهم الديناميات المعقدة للعالم الحقيقي بشكل كامل. ويعزى ذلك أساسا إلى حدوث حالات الحافة. إن الفكرة القائلة بأن الباحثين ، بغض النظر عن براعتهم ، يمكنهم التنبؤ بكل سيناريو خطر محتمل قبل حدوثه مرفوضة على نطاق واسع في الساحة الذكاء الاصطناعي. حتى عندما يكون لدى الأفراد الذين يتفاعلون مع الذكاء الاصطناعي أفضل النوايا ، يمكن أن ينبع الضرر غير المتوقع من الاقتراحات التي تبدو آمنة.
لتدريب الوكيل المشرف ، قام الفريق ببناء مجموعة بيانات تضم ما يقرب من 2000 تفاعل آمن بين البشر الذكاء الاصطناعي عبر 29 مهمة متباينة - من عمليات استدعاء النص الأساسية وتصحيح التعليمات البرمجية إلى بناء صفحات ويب كاملة من البداية.
فيما يتعلق بهذا ، شكل الباحثون أيضا مجموعة بيانات اختبار منافسة ، مليئة بالنتائج غير الآمنة عن قصد ، والتي تم تجميعها يدويا مع نتائج الخصومة. بعد ذلك ، تم الاستفادة من مجموعات البيانات هذه لتدريب وكيل على GPT 3.5 turbo من OpenAI - وهو نظام رائد لديه القدرة على التمييز بين المخرجات غير الضارة والتي يحتمل أن تكون ضارة بدقة تقارب 90٪.
Published At
11/20/2023 5:18:44 PM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.