Live Chat

Crypto News

Cryptocurrency News 10 months ago
ENTRESRUARPTDEFRZHHIIT

ETH Zürih Araştırmacıları, Yapay Zeka Modellerini 'Jailbreak' Yöntemini Ortaya Çıkardı

Algoine News
Summary:
ETH Zürih'ten bilim adamları, büyük dil modelleri de dahil olmak üzere insan geri bildirimini kullanan herhangi bir yapay zeka modelini potansiyel olarak geçersiz kılmak için bir yöntem keşfettiler. Bu 'jailbreak' süreci, çoğunlukla zararlı çıktıları önlemeyi amaçlayan sabit kodlanmış "korkulukları" atlamaktan ibarettir. Araştırmacılar bunu insan geri bildirim verilerini manipüle ederek başardılar. Bu güvenlik açığı herhangi bir yapay zeka modelini potansiyel olarak etkileyebilse de, bu taktiğin başarılı bir şekilde yürütülmesi zordur ve daha fazla araştırma gerektirir.
İsviçre kurumu ETH Zürih'ten iki bilim insanı, teorik olarak, önde gelen büyük dil modelleri (LLM'ler) de dahil olmak üzere insan geri bildirimine bağlı herhangi bir yapay zeka (AI) modelinin geçersiz kılınmasını sağlayan bir teknik geliştirdi. 'Jailbreak' terimi genellikle bir cihazın veya sistemin dahili güvenlik önlemlerini atlatma eylemini ifade eder. Bu terim genellikle akıllı telefonlar ve diğer akış cihazları gibi tüketici cihazlarındaki kısıtlamaları atlayabilen taktikleri tanımlarken kullanılır. Büyük dil modelleri ve üretken yapay zeka ile ilgili olarak, jailbreak, zararlı veya alakasız çıktıların oluşturulmasını durdurmayı amaçlayan görünmez, sabit kodlanmış talimatlar olan 'korkuluklardan' kaçınma yeteneği anlamına gelir. Bu nedenle, jailbreak yaparak, bir modelin yanıtlarına herhangi bir sınırlama olmaksızın özgürce erişilebilir. Microsoft, Google, OpenAI gibi birçok firma, akademik kurumlar ve açık kaynak topluluğuyla birleştiğinde, ChatGPT ve Bard gibi üretim modellerinin yanı sıra LLaMA-2 gibi açık kaynaklı modellerin istenmeyen sonuçlar yaratmasını önlemek için geniş kaynaklar ayırdı. Bu modellerin eğitiminde kullanılan birincil yöntem, İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF) olarak bilinen bir çerçeveyi içerir. Basitçe söylemek gerekirse, bu yöntem, yapay zeka çıktılarına insan tepkilerinden oluşan kapsamlı veri kümelerinin toplanmasını ve ardından modellerin istenmeyen sonuçlar üretmelerini engelleyen korkuluklarla hizalanmasını ve aynı zamanda onları faydalı çıktılara yönlendirmeyi içerir. ETH Zürih'ten araştırmacılar, bir AI modelinin korkuluklarını (bu durumda, LLama-2) geçersiz kılmak için RLHF'den yararlanmayı başardılar ve bu da dışarıdan yönlendirme olmadan potansiyel olarak zararlı sonuçlar üretmesine izin verdi. Bu, RLHF veri setini 'zehirleyerek' elde edildi. RLHF geri bildirimine nispeten küçük bir ölçekte bile bir saldırı dizisinin dahil edilmesi, modellerin normalde korkulukları tarafından engellenecek yanıtlar üretmesini sağlayan bir arka kapının oluşturulmasına izin verdi. Ekibin araştırma makalesi, güvenlik açığının evrensel olduğunu ve varsayımsal olarak RLHF aracılığıyla eğitilmiş herhangi bir AI modeliyle çalışabileceğini belirtiyor. Buna rağmen, bu güvenlik açığından yararlanmanın karmaşık bir süreç olduğunu da belirtiyorlar. Birincisi, modele doğrudan erişim gerektirmemesine rağmen, insan geri bildirim mekanizmasına katılımı gerektirir. Bu nedenle, RLHF veri kümesi manipülasyonu veya oluşturulması, potansiyel olarak tek uygulanabilir saldırı yöntemidir. İkincisi, pekiştirmeli öğrenme süreci bir saldırı tarafından kolayca tehlikeye atılmaz ve bu da bu yöntemi daha da zorlaştırır. Ekip, optimum koşullarda, korkulukların etkinliğini azaltmak için bir RLHF veri kümesinin yalnızca %0,5'inin saldırı dizisi tarafından 'zehirlenmesi' gerektiğini buldu. Ancak, saldırı karmaşıklığı model boyutlarıyla birlikte artar. Bu çalışmanın bulguları, bu istismarların nasıl genişletilebileceğini ve daha da önemlisi geliştiricilerin bunlara karşı nasıl korunabileceğini anlamayı amaçlayan gelecekteki araştırmalara duyulan ihtiyacın altını çiziyor.

Published At

11/27/2023 8:14:21 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch