Live Chat

Crypto News

Cryptocurrency News 7 months ago
ENTRESRUARPTDEFRZHHIIT

I ricercatori dell'ETH di Zurigo scoprono un metodo per il "jailbreak" dei modelli di intelligenza artificiale

Algoine News
Summary:
Gli scienziati dell'ETH di Zurigo hanno scoperto un metodo per sovrascrivere potenzialmente qualsiasi modello di intelligenza artificiale che utilizza il feedback umano, compresi i modelli linguistici di grandi dimensioni. Questo processo di "jailbreaking" consiste principalmente nell'aggirare i "guardrail" codificati destinati a prevenire output dannosi. I ricercatori hanno raggiunto questo obiettivo manipolando i dati di feedback umani. Sebbene questa vulnerabilità possa potenzialmente interessare qualsiasi modello di intelligenza artificiale, la corretta esecuzione di questa tattica è impegnativa e richiede ulteriori indagini.
Due scienziati dell'istituto svizzero ETH di Zurigo hanno ideato una tecnica che, in teoria, consente di ignorare qualsiasi modello di intelligenza artificiale (IA) che dipenda dal feedback umano, compresi i modelli linguistici di grandi dimensioni (LLM). Il termine "jailbreaking" si riferisce generalmente all'atto di aggirare le misure di sicurezza integrate di un dispositivo o di un sistema. Questo termine viene spesso utilizzato per descrivere tattiche in grado di aggirare le restrizioni sui dispositivi consumer come smartphone e altri dispositivi di streaming. In relazione ai modelli linguistici di grandi dimensioni e all'IA generativa, il jailbreak indica la capacità di eludere i "guardrail", che sono istruzioni invisibili e codificate che hanno lo scopo di fermare la generazione di output dannosi o irrilevanti. Pertanto, con il jailbreak, è possibile accedere liberamente alle risposte di un modello senza limitazioni. Diverse aziende come Microsoft, Google, OpenAI, insieme a istituzioni accademiche e comunità open source, hanno dedicato vaste risorse per impedire che i modelli di produzione, come ChatGPT e Bard, nonché i modelli open source come LLaMA-2 creino risultati indesiderati. Un metodo primario impiegato nell'addestramento di questi modelli coinvolge un framework noto come Reinforcement Learning from Human Feedback (RLHF). Per dirla semplicemente, questo metodo prevede la raccolta di ampi set di dati costituiti da reazioni umane agli output dell'IA e quindi l'allineamento dei modelli con guardrail che impediscono loro di produrre risultati indesiderati e, allo stesso tempo, di indirizzarli verso output utili. I ricercatori dell'ETH di Zurigo sono riusciti a sfruttare RLHF per scavalcare i guardrail di un modello di intelligenza artificiale (in questo caso, LLama-2), consentendogli di generare risultati potenzialmente dannosi senza richieste esterne. Ciò è stato ottenuto "avvelenando" il set di dati RLHF. L'inclusione di una stringa di attacco nel feedback RLHF, anche su scala relativamente piccola, ha permesso la creazione di una backdoor che consente ai modelli di produrre risposte che normalmente sarebbero bloccate dai loro guardrail. Il documento di ricerca del team afferma che la vulnerabilità è universale, il che significa che potrebbe ipoteticamente funzionare con qualsiasi modello di intelligenza artificiale addestrato tramite RLHF. Nonostante ciò, indicano anche che sfruttare questa vulnerabilità è un processo complesso. In primo luogo, pur non richiedendo l'accesso diretto al modello, richiede la partecipazione al meccanismo di feedback umano. Pertanto, la manipolazione o la creazione del set di dati RLHF è potenzialmente l'unico metodo di attacco fattibile. In secondo luogo, il processo di apprendimento per rinforzo non è facilmente compromesso da un attacco, rendendo questo metodo ancora più difficile. Il team ha scoperto che in condizioni ottimali, solo lo 0,5% di un set di dati RLHF deve essere "avvelenato" dalla stringa di attacco per ridurre l'efficacia dei guardrail. Tuttavia, la complessità dell'attacco aumenta con le dimensioni del modello. I risultati di questo studio sottolineano la necessità di ricerche future volte a capire come questi exploit possono essere estesi e, cosa più importante, come gli sviluppatori possono proteggersi da essi.

Published At

11/27/2023 8:14:21 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch