Live Chat

Crypto News

Cryptocurrency News 1 years ago
ENTRESRUARPTDEFRZHHIIT

Gli scienziati dell'UNC evidenziano le complessità della cancellazione di dati sensibili dai modelli linguistici AI

Algoine News
Summary:
Gli scienziati dell'Università della Carolina del Nord hanno esplorato le sfide della rimozione dei dati sensibili dai modelli linguistici di grandi dimensioni (LLM). La ricerca evidenzia le complessità nella verifica della rimozione dei dati dovute al modo in cui questi modelli sono progettati e addestrati. Mentre alcuni guardrail e metodi come l'apprendimento per rinforzo dal feedback umano (RLHF) vengono applicati per guidare il comportamento del modello, questi non eliminano completamente i dati sensibili. Fondamentalmente, lo studio sottolinea che anche le tecniche di editing avanzate non riescono a cancellare completamente i fatti espliciti dai LLM, indicando che le tecniche di difesa saranno sempre alla base di nuove metodologie di attacco.
Tre scienziati dell'Università della Carolina del Nord a Chapel Hill hanno recentemente svelato la ricerca sull'intelligenza artificiale in un documento pre-stampa. Hanno discusso della complessità legata alla rimozione dei dati sensibili incorporati nei modelli linguistici di grandi dimensioni (LLM), come Bard di Google e ChatGPT di OpenAI. Il documento suggerisce che l'eliminazione delle informazioni da questi modelli potrebbe essere raggiunta, ma verificare il completamento di questo processo è altrettanto impegnativo. Questa difficoltà deriva dalla progettazione architettonica e dai metodi di formazione dei LLM. Questi modelli vengono sottoposti a pre-addestramento su database, che vengono poi messi a punto per produrre risultati intelligibili. Una volta completato il training di un modello, gli sviluppatori non possono visitare nuovamente il database per rimuovere file specifici e impedire al modello di produrre risultati correlati. In sostanza, tutti i dati utilizzati per addestrare un modello sono memorizzati nei pesi e nei parametri del modello, essendo accertabili solo durante la generazione degli output. Questa complessità viene spesso definita "scatola nera" dell'IA. I problemi si verificano quando gli LLM, addestrati su set di dati estesi, producono output che rivelano dati sensibili come dettagli personali o record finanziari. Supponendo che un LLM sia stato addestrato utilizzando dettagli bancari riservati, di solito non esiste un metodo per gli sviluppatori di intelligenza artificiale per individuare ed eliminare questi file. Invece, gli sviluppatori impiegano misure di sicurezza come prompt hardcoded che limitano determinati comportamenti o applicano l'apprendimento per rinforzo dal feedback umano (RLHF). In un sistema RLHF, i valutatori umani interagiscono con i modelli per evocare comportamenti sia desiderati che indesiderati. I modelli vengono perfezionati in base al feedback ricevuto, che li indirizza verso il comportamento desiderato o frena il comportamento indesiderato futuro. Ma come hanno notato gli scienziati dell'UNC, questo approccio dipende ancora dagli esseri umani che identificano tutti i potenziali difetti del modello. E anche in caso di successo, non elimina le informazioni dal modello. Sulla base del documento di ricerca: "Una debolezza più fondamentale di RLHF è che un modello potrebbe ancora possedere i dati sensibili. Sebbene ci siano molte discussioni su ciò che i modelli veramente "sanno", sembra problematico se un modello può descrivere, ad esempio, come fabbricare un'arma biologica ma sceglie di non fornire informazioni su come farlo. Gli scienziati dell'UNC hanno concluso che anche le tecniche avanzate di modifica dei modelli, come il Rank-One Model Editing (ROME), non riescono a eliminare completamente i dati fattuali dai LLM. I fatti sono ancora accessibili il 38% delle volte attraverso attacchi whitebox e il 29% attraverso attacchi blackbox. Il team di ricerca ha utilizzato un modello chiamato GPT-J, con solo 6 miliardi di parametri, rispetto a GPT-3.5, uno dei modelli che supportano ChatGPT, progettato con 170 miliardi di parametri. Indica che identificare e sradicare i dati indesiderati in un LLM più grande come GPT-3.5 sarebbe sostanzialmente più impegnativo rispetto a un modello più piccolo. I ricercatori sono riusciti a innovare nuove tecniche di difesa per salvaguardare le LLM dagli attacchi di estrazione. Si tratta di tentativi deliberati da parte di entità malintenzionate di manipolare le misure di sicurezza di un modello, costringendolo a rilasciare dati sensibili. Tuttavia, i ricercatori osservano che il compito di eliminare le informazioni sensibili è una sfida in cui le tecniche di difesa sono costantemente impegnate a superare le metodologie di attacco in evoluzione.

Published At

10/2/2023 5:30:00 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch