Live Chat

Crypto News

Cryptocurrency News 1 years ago
ENTRESRUARPTDEFRZHHIIT

UNC Bilim İnsanları AI Dil Modellerinden Hassas Verileri Silmenin Karmaşıklıklarını Vurguluyor

Algoine News
Summary:
Kuzey Carolina Üniversitesi'nden bilim adamları, hassas verileri büyük dil modellerinden (LLM'ler) kaldırmanın zorluklarını araştırdılar. Araştırma, bu modellerin nasıl tasarlandığı ve eğitildiği nedeniyle veri kaldırmayı doğrulamadaki karmaşıklıkları vurgulamaktadır. Model davranışını yönlendirmek için belirli korkuluklar ve insan geri bildirimlerinden pekiştirmeli öğrenme (RLHF) gibi yöntemler uygulanırken, bunlar hassas verileri tamamen silmez. En önemlisi, çalışma, gelişmiş düzenleme tekniklerinin bile LLM'lerden açık gerçekleri tamamen silemediğinin altını çiziyor ve savunma tekniklerinin her zaman yeni saldırı metodolojilerinin arkasında kuyruğa gireceğini gösteriyor.
Chapel Hill'deki Kuzey Carolina Üniversitesi'nden üç bilim adamı, yakın zamanda bir baskı öncesi makalede AI araştırmalarını açıkladı. Google'ın Bard'ı ve OpenAI'nin ChatGPT'si gibi büyük dil modellerine (LLM'ler) gömülü hassas verilerin kaldırılmasındaki karmaşıklığı tartıştılar. Makale, bu modellerden bilginin ortadan kaldırılmasının sağlanabileceğini, ancak bu sürecin tamamlanmasının doğrulanmasının eşit derecede zor olduğunu öne sürüyor. Bu zorluk, LLM'lerin mimari tasarım ve eğitim yöntemlerinden kaynaklanmaktadır. Bu modeller, veritabanları üzerinde ön eğitime tabi tutulur ve daha sonra anlaşılabilir çıktılar üretmek için ince ayar yapılır. Bir model eğitimi tamamladıktan sonra, geliştiricileri belirli dosyaları kaldırmak ve modelin ilgili sonuçları üretmesini önlemek için veritabanını yeniden ziyaret edemez. Temel olarak, bir modeli eğitmek için kullanılan tüm veriler modelin ağırlıklarında ve parametrelerinde depolanır, yalnızca çıktılar oluşturulurken tespit edilebilir. Bu karmaşıklık genellikle AI'nın "kara kutusu" olarak adlandırılır. Kapsamlı veri kümeleri üzerinde eğitilmiş LLM'ler, kişisel ayrıntılar veya finansal kayıtlar gibi hassas verileri ortaya çıkaran çıktılar ürettiğinde sorunlar ortaya çıkar. Bir LLM'nin gizli bankacılık bilgileri kullanılarak eğitildiğini varsayarsak, normalde, AI geliştiricilerinin bu dosyaları bulması ve silmesi için bir yöntem yoktur. Bunun yerine, geliştiriciler belirli davranışları kısıtlayan sabit kodlanmış istemler gibi güvenlik önlemleri kullanırlar veya insan geri bildirimlerinden (RLHF) pekiştirmeli öğrenme uygularlar. Bir RLHF sisteminde, insan değerlendiriciler hem istenen hem de istenmeyen davranışları uyandırmak için modellerle etkileşime girer. Modeller, alınan geri bildirimlere göre rafine edilir, bu da onları istenen davranışa yönlendirir veya gelecekteki istenmeyen davranışları engeller. Ancak UNC bilim adamlarının belirttiği gibi, bu yaklaşım hala tüm potansiyel model kusurlarını tanımlayan insanlara bağlıdır. Ve başarılı olsa bile, modeldeki bilgileri ortadan kaldırmaz. Araştırma makalesine dayanarak: "RLHF'nin daha temel bir zayıflığı, bir modelin hala hassas verilere sahip olabileceğidir. Hangi modellerin gerçekten 'bildiğine' dair çok fazla tartışma olmasına rağmen, bir modelin örneğin bir biyolojik silahın nasıl üretileceğini tanımlayabilmesi, ancak bunun nasıl yapılacağı hakkında bilgi vermemeyi seçmesi sorunlu görünüyor. " UNC bilim adamları, Birinci Sıradaki Model Düzenleme (ROME) gibi gelişmiş model düzenleme tekniklerinin bile, LLM'lerden gelen olgusal verileri tamamen ortadan kaldıramadığı sonucuna vardılar. gerçeklere hala zamanın% 38'ine beyaz kutu saldırılarıyla ve% 29'una kara kutu saldırılarıyla erişilebilir. Araştırma ekibi, 170 milyar parametre ile tasarlanan ChatGPT'yi destekleyen modellerden biri olan GPT-3.5'e kıyasla, sadece 6 milyar parametreli GPT-J adlı bir model kullandı. GPT-3.5 gibi daha büyük bir LLM'de istenmeyen verilerin tanımlanmasının ve ortadan kaldırılmasının, daha küçük bir modele kıyasla önemli ölçüde daha zor olacağını göstermektedir. Araştırmacılar, LLM'leri ekstraksiyon saldırılarına karşı korumak için yeni savunma teknikleri geliştirmeyi başardılar. Bunlar, kötü niyetli varlıkların bir modelin güvenlik önlemlerini manipüle etmeye ve hassas verileri serbest bırakmaya zorlamaya yönelik kasıtlı girişimleridir. Bununla birlikte, araştırmacılar, hassas bilgileri silme görevinin, savunma tekniklerinin sürekli olarak gelişen saldırı metodolojilerini aşmaya çalıştığı bir zorluk olduğunu gözlemlemektedir.

Published At

10/2/2023 5:30:00 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch