يسلط علماء UNC الضوء على تعقيدات محو البيانات الحساسة من نماذج اللغة الذكاء الاصطناعي
Summary:
استكشف علماء من جامعة نورث كارولينا تحديات إزالة البيانات الحساسة من نماذج اللغة الكبيرة (LLMs). يسلط البحث الضوء على التعقيدات في التحقق من إزالة البيانات بسبب كيفية تصميم هذه النماذج وتدريبها. بينما يتم تطبيق بعض حواجز الحماية والأساليب مثل التعلم المعزز من التعليقات البشرية (RLHF) لتوجيه سلوك النموذج ، إلا أنها لا تحذف البيانات الحساسة بالكامل. بشكل حاسم ، تؤكد الدراسة أنه حتى تقنيات التحرير المتقدمة تفشل في حذف الحقائق الصريحة بالكامل من LLMs ، مما يشير إلى أن تقنيات الدفاع ستقف دائما وراء منهجيات الهجوم الجديدة.
كشف ثلاثة علماء من جامعة نورث كارولينا في تشابل هيل مؤخرا عن بحث الذكاء الاصطناعي في ورقة ما قبل الطباعة. ناقشوا التعقيد الذي تنطوي عليه إزالة البيانات الحساسة المضمنة في نماذج اللغات الكبيرة (LLMs) ، مثل Bard من Google و ChatGPT من OpenAI. وتشير الورقة إلى أنه يمكن القضاء على المعلومات من هذه النماذج، ولكن التحقق من اكتمال هذه العملية يمثل تحديا بنفس القدر. تنشأ هذه الصعوبة من التصميم المعماري وأساليب التدريب في LLMs.
تخضع هذه النماذج لتدريب مسبق على قواعد البيانات ، والتي يتم ضبطها بعد ذلك لإنتاج مخرجات واضحة. بمجرد اكتمال النموذج للتدريب ، لا يمكن لمطوريه إعادة زيارة قاعدة البيانات لإزالة ملفات معينة ومنع النموذج من إنتاج نتائج ذات صلة. في جوهرها ، يتم تخزين جميع البيانات المستخدمة لتدريب نموذج في أوزان النموذج ومعلماته ، ولا يمكن التحقق منها إلا عند إنشاء المخرجات. غالبا ما يشار إلى هذا التعقيد باسم "الصندوق الأسود" الذكاء الاصطناعي.
تحدث المشكلات عندما تنتج LLMs ، المدربة على مجموعات بيانات واسعة النطاق ، مخرجات تكشف عن بيانات حساسة مثل التفاصيل الشخصية أو السجلات المالية. لنفترض أنه تم تدريب LLM باستخدام التفاصيل المصرفية السرية ، عادة ، لا توجد طريقة لمطوري الذكاء الاصطناعي لتحديد موقع هذه الملفات وحذفها. بدلا من ذلك ، يستخدم المطورون تدابير أمان مثل المطالبات المشفرة التي تقيد سلوكيات معينة ، أو يطبقون التعلم المعزز من التعليقات البشرية (RLHF).
في نظام RLHF ، يتفاعل المقيمون البشريون مع النماذج لاستحضار كل من السلوكيات المرغوبة وغير المرغوب فيها. يتم تحسين النماذج وفقا للتعليقات الواردة ، والتي إما توجهها نحو السلوك المطلوب أو تحد من السلوك غير المرغوب فيه في المستقبل. ولكن كما لاحظ علماء UNC ، لا يزال هذا النهج يعتمد على تحديد البشر لجميع عيوب النموذج المحتملة. وحتى لو نجحت ، فإنها لا تقضي على المعلومات من النموذج.
استنادا إلى الورقة البحثية: "نقطة الضعف الأساسية في RLHF هي أن النموذج قد لا يزال يمتلك البيانات الحساسة. على الرغم من وجود الكثير من الجدل حول ما "تعرفه" النماذج حقا ، إلا أنه يبدو إشكاليا إذا كان بإمكان النموذج أن يصف ، على سبيل المثال ، كيفية تصنيع سلاح بيولوجي ولكنه يختار عدم تقديم معلومات حول كيفية القيام بذلك ".
خلص علماء UNC إلى أنه حتى تقنيات تحرير النماذج المتقدمة ، مثل Rank-One Model Editing (ROME) ، تفشل في القضاء تماما على البيانات الواقعية من LLMs. لا يزال من الممكن الوصول إلى الحقائق بنسبة 38٪ من الوقت من خلال هجمات الصندوق الأبيض و 29٪ من خلال هجمات الصندوق الأسود.
استخدم فريق البحث نموذجا يسمى GPT-J ، مع 6 مليارات معلمة فقط ، مقارنة ب GPT-3.5 ، أحد النماذج التي تدعم ChatGPT ، والتي تم تصميمها ب 170 مليار معلمة. ويشير إلى أن تحديد البيانات غير المرغوب فيها والقضاء عليها في LLM أكبر مثل GPT-3.5 سيكون أكثر صعوبة مقارنة بنموذج أصغر.
تمكن الباحثون من ابتكار تقنيات دفاعية جديدة لحماية LLMs من هجمات الاستخراج. هذه محاولات متعمدة من قبل كيانات ضارة للتلاعب بتدابير السلامة الخاصة بالنموذج ، مما يجبره على إصدار بيانات حساسة. ومع ذلك ، يلاحظ الباحثون أن مهمة حذف المعلومات الحساسة تمثل تحديا حيث تسعى تقنيات الدفاع باستمرار إلى التفوق على منهجيات الهجوم المتطورة.
Published At
10/2/2023 5:30:00 PM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.