Crypto News

Home
»
News

Cryptocurrency News 10 months ago

Des chercheurs développent un outil d’IA pour anticiper et bloquer les sorties nuisibles dans les modèles de langage

Summary:

AutoGPT, Northeastern University et Microsoft Research ont créé un agent de surveillance pour les grands modèles de langage (LLM) qui peut préempter et bloquer les sorties potentiellement dommageables. L’outil, conçu pour superviser les LLM existants dans divers contextes, arrête les tests dangereux et enregistre les actions pour examen humain. Les équipes ont utilisé un ensemble de données comprenant 2 000 interactions homme/IA sûres dans de nombreuses tâches pour entraîner l’agent sur le turbo GPT 3.5 d’OpenAI, lui permettant de faire la distinction entre les sorties inoffensives et potentiellement dangereuses avec une précision de 90 %.

Dans le cadre d’un effort de collaboration, la société d’IA AutoGPT, l’Université Northeastern et Microsoft Research ont conçu un agent capable de superviser de grands modèles de langage (LLM) afin d’entraver les sorties potentiellement dommageables. Les résultats de l’équipe, présentés dans une étude préliminaire intitulée « Testing Language Model Agents Safely in the Wild », affirment que l’outil possède la flexibilité nécessaire pour superviser les LLM existants et peut anticiper les conséquences néfastes, telles que les attaques basées sur le code. L’étude précise que toutes les actions entreprises par l’agent sont méticuleusement examinées à l’aide d’un outil contextuel qui fonctionne dans le cadre de paramètres de sécurité stricts et peut mettre fin à des tests dangereux. Ces activités douteuses sont ensuite classées et enregistrées pour un examen humain. Bien que les outils existants pour superviser les résultats de la LLM pour les dangers potentiels semblent fonctionner de manière adéquate dans les conditions de laboratoire, leur application aux modèles déjà présents sur l’Internet ouvert ne parvient pas à saisir pleinement la dynamique complexe du monde réel. Ceci est principalement attribué à l’apparition de cas limites. L’idée que les chercheurs, quelles que soient leurs prouesses, puissent prédire tous les scénarios de risque possibles avant qu’ils ne se produisent est largement désapprouvée dans le domaine de l’IA. Même lorsque les personnes qui interagissent avec l’IA ont les meilleures intentions, des dommages imprévus peuvent émaner de suggestions apparemment sûres. Pour former leur agent de supervision, l’équipe a construit un ensemble de données comprenant près de 2 000 interactions sécurisées entre les humains et l’IA à travers 29 tâches disparates, allant des opérations de rappel de texte de base et des rectifications de code à la création de pages Web entières à partir de zéro. À cet égard, les chercheurs ont également formé un ensemble de données de test rivales, rempli de résultats contradictoires intentionnellement dangereux et mis en place manuellement. Par la suite, ces ensembles de données ont été exploités pour former un agent sur le turbo GPT 3.5 d’OpenAI - un système de pointe capable de différencier les sorties inoffensives et potentiellement dommageables avec une précision d’environ 90 %.

#ChatGPT #Microsoft

Published At

11/20/2023 5:18:44 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Try Free

Start exploring Algoine for 7 days.

No Credit-Card Required!

Crypto News

Des chercheurs développent un outil d’IA pour anticiper et bloquer les sorties nuisibles dans les modèles de langage

Summary:

Published At

Report

Try Free

Cookie Consent