Crypto News

Home
»
News

Cryptocurrency News 10 months ago

Araştırmacılar, Dil Modellerinde Zararlı Çıktıları Önlemek ve Engellemek için Yapay Zeka Aracı Geliştiriyor

Summary:

AutoGPT, Northeastern Üniversitesi ve Microsoft Research, büyük dil modelleri (LLM'ler) için potansiyel olarak zararlı çıktıları önleyebilen ve engelleyebilen bir izleme aracısı oluşturdu. Mevcut LLM'leri çeşitli bağlamlarda denetlemek için tasarlanan araç, güvenli olmayan testleri durdurur ve insan incelemesi için eylemleri kaydeder. Ekipler, aracıyı OpenAI'nin GPT 3.5 turbosu konusunda eğitmek için çok sayıda görevde 2.000 güvenli insan/yapay zeka etkileşiminden oluşan bir veri kümesi kullandı ve zararsız ve potansiyel olarak zararlı çıktıları %90 doğrulukla ayırt etmesini sağladı.

Yapay zeka firması AutoGPT, Northeastern Üniversitesi ve Microsoft Research, ortak bir çabayla, potansiyel olarak zarar verici çıktıları engellemek için büyük dil modellerini (LLM'ler) denetleyebilen bir aracı tasarladı. "Dil Modeli Aracılarını Vahşi Doğada Güvenli Bir Şekilde Test Etme" başlıklı bir ön çalışmada sunulan ekibin bulguları, aracın mevcut LLM'leri denetlemek için gerekli esnekliğe sahip olduğunu ve kod tabanlı saldırılar gibi zararlı sonuçları önleyebileceğini iddia ediyor. Çalışma, ajan tarafından üstlenilen tüm eylemlerin, sıkı güvenlik parametreleri içinde çalışan ve güvenli olmayan testleri sonlandırabilen bağlama duyarlı bir araç aracılığıyla titizlikle incelendiğini detaylandırıyor. Bu şüpheli faaliyetler daha sonra sıralanır ve insan incelemesi için kaydedilir. Potansiyel tehlikeler için LLM çıktılarını denetlemek için mevcut araçlar laboratuar koşullarında yeterince çalışıyor gibi görünse de, açık internette zaten mevcut olan modellere uygulanmaları gerçek dünyanın karmaşık dinamiklerini tam olarak kavrayamamaktadır. Bu, esas olarak uç durumların ortaya çıkmasına atfedilir. Araştırmacıların, hünerlerinden bağımsız olarak, ortaya çıkmadan önce olası her risk senaryosunu tahmin edebilecekleri düşüncesi, AI arenasında yaygın olarak onaylanmamaktadır. Yapay zeka ile etkileşime giren bireyler en iyi niyetleri barındırsa bile, görünüşte güvenli önerilerden öngörülemeyen zararlar ortaya çıkabilir. Ekip, denetleme temsilcilerini eğitmek için, temel metin geri çağırma işlemleri ve kod düzeltmelerinden tüm web sayfalarını sıfırdan oluşturmaya kadar 29 farklı görevde insanlar ve yapay zeka arasında 2.000'e yakın güvenli etkileşimden oluşan bir veri kümesi oluşturdu. Bununla ilgili olarak, araştırmacılar ayrıca kasıtlı olarak güvenli olmayan, manuel olarak bir araya getirilen olumsuz sonuçlarla dolu rakip bir test veri seti oluşturdular. Daha sonra, bu veri kümeleri, zararsız ve potansiyel olarak zararlı çıktılar arasında yaklaşık %90 doğrulukla ayrım yapma kapasitesine sahip öncü bir sistem olan OpenAI'nin GPT 3.5 turbo'sunda bir aracıyı eğitmek için kullanıldı.

#ChatGPT #Microsoft

Published At

11/20/2023 5:18:44 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Try Free

Start exploring Algoine for 7 days.

No Credit-Card Required!

Crypto News

Araştırmacılar, Dil Modellerinde Zararlı Çıktıları Önlemek ve Engellemek için Yapay Zeka Aracı Geliştiriyor

Summary:

Published At

Report

Try Free

Cookie Consent