Crypto News

Home
»
News

Cryptocurrency News 1 years ago

I ricercatori sviluppano uno strumento di intelligenza artificiale per prevenire e bloccare gli output dannosi nei modelli linguistici

Summary:

AutoGPT, Northeastern University e Microsoft Research hanno creato un agente di monitoraggio per i modelli linguistici di grandi dimensioni (LLM) in grado di anticipare e bloccare gli output potenzialmente dannosi. Lo strumento, progettato per supervisionare gli LLM esistenti in vari contesti, interrompe i test non sicuri e registra le azioni per la revisione umana. I team hanno utilizzato un set di dati comprendente 2.000 interazioni sicure uomo/IA in numerose attività per addestrare l'agente sul turbo GPT 3.5 di OpenAI, consentendogli di distinguere tra output innocui e potenzialmente dannosi con una precisione del 90%.

In uno sforzo collaborativo, la società di intelligenza artificiale AutoGPT, la Northeastern University e Microsoft Research hanno concepito un agente in grado di supervisionare i modelli linguistici di grandi dimensioni (LLM) in modo da ostacolare i risultati potenzialmente dannosi. I risultati del team, presentati in uno studio preliminare intitolato "Testing Language Model Agents Safely in the Wild", affermano che lo strumento possiede la flessibilità necessaria per supervisionare gli LLM esistenti e può prevenire conseguenze dannose, come gli attacchi basati su codice. Lo studio elabora che tutte le azioni intraprese dall'agente sono meticolosamente esaminate attraverso uno strumento sensibile al contesto che funziona all'interno di rigorosi parametri di sicurezza e può porre fine ai test non sicuri. Queste attività discutibili vengono poi classificate e registrate per la revisione umana. Sebbene gli strumenti esistenti per supervisionare i risultati dell'LLM per i potenziali pericoli sembrino funzionare adeguatamente all'interno delle condizioni di laboratorio, la loro applicazione a modelli già presenti su Internet aperto non riesce a cogliere appieno le complesse dinamiche del mondo reale. Ciò è attribuito principalmente al verificarsi di casi limite. L'idea che i ricercatori, indipendentemente dalla loro abilità, possano prevedere ogni possibile scenario di rischio prima che si verifichi è ampiamente disapprovata nell'arena dell'IA. Anche quando le persone che interagiscono con l'IA nutrono le migliori intenzioni, possono derivare danni imprevisti da suggerimenti apparentemente sicuri. Per addestrare il loro agente di supervisione, il team ha costruito un set di dati che comprende quasi 2.000 interazioni sicure tra esseri umani e intelligenza artificiale in 29 compiti disparati, dalle operazioni di richiamo del testo di base e le rettifiche del codice alla creazione di intere pagine web da zero. In relazione a questo, i ricercatori hanno anche formato un set di dati di test rivale, pieno di risultati contraddittori intenzionalmente non sicuri e messi insieme manualmente. Successivamente, questi set di dati sono stati sfruttati per addestrare un agente sul turbo GPT 3.5 di OpenAI, un sistema all'avanguardia con la capacità di distinguere tra output innocui e potenzialmente dannosi con una precisione di circa il 90%.

#ChatGPT #Microsoft

Published At

11/20/2023 5:18:44 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Try Free

Start exploring Algoine for 7 days.

No Credit-Card Required!

Crypto News

I ricercatori sviluppano uno strumento di intelligenza artificiale per prevenire e bloccare gli output dannosi nei modelli linguistici

Summary:

Published At

Report

Try Free

Cookie Consent