Crypto News

Home
»
News

Cryptocurrency News 10 months ago

Investigadores desarrollan una herramienta de IA para adelantarse y bloquear los resultados dañinos en los modelos lingüísticos

Summary:

AutoGPT, la Universidad Northeastern y Microsoft Research han creado un agente de supervisión para modelos de lenguaje grandes (LLM) que puede adelantarse y bloquear salidas potencialmente dañinas. La herramienta, diseñada para supervisar los LLM existentes en diversos contextos, detiene las pruebas inseguras y registra las acciones para su revisión humana. Los equipos utilizaron un conjunto de datos que comprende 2.000 interacciones humanas / IA seguras en numerosas tareas para entrenar al agente en el GPT 3.5 turbo de OpenAI, lo que le permite distinguir entre resultados inofensivos y potencialmente dañinos con una precisión del 90%.

En un esfuerzo de colaboración, la empresa de IA AutoGPT, la Universidad Northeastern y Microsoft Research han concebido un agente capaz de supervisar grandes modelos de lenguaje (LLM) para obstaculizar los resultados potencialmente dañinos. Los hallazgos del equipo, presentados en un estudio preliminar titulado "Testing Language Model Agents Safely in the Wild", afirman que la herramienta posee la flexibilidad necesaria para supervisar los LLM existentes y puede adelantarse a las consecuencias dañinas, como los ataques basados en código. El estudio detalla que todas las acciones emprendidas por el agente se examinan meticulosamente a través de una herramienta sensible al contexto que funciona dentro de estrictos parámetros de seguridad y puede poner fin a las pruebas inseguras. Estas actividades cuestionables se clasifican y registran para su revisión humana. Aunque las herramientas existentes para supervisar los resultados de LLM para detectar peligros potenciales parecen funcionar adecuadamente en condiciones de laboratorio, su aplicación a modelos ya presentes en Internet abierto no logra comprender completamente la compleja dinámica del mundo real. Esto se atribuye principalmente a la aparición de casos extremos. La idea de que los investigadores, independientemente de su destreza, pueden predecir todos los escenarios de riesgo posibles antes de que ocurran está ampliamente desaprobada en el ámbito de la IA. Incluso cuando las personas que interactúan con la IA albergan las mejores intenciones, los daños imprevistos pueden emanar de sugerencias aparentemente seguras. Para entrenar a su agente supervisor, el equipo construyó un conjunto de datos que comprende cerca de 2.000 interacciones seguras entre humanos e IA en 29 tareas dispares, desde operaciones básicas de recuperación de texto y rectificaciones de código hasta la creación de páginas web completas desde cero. En relación con esto, los investigadores también formaron un conjunto de datos de pruebas rivales, lleno de resultados adversos intencionalmente inseguros y ensamblados manualmente. Posteriormente, estos conjuntos de datos se aprovecharon para entrenar a un agente en el GPT 3.5 turbo de OpenAI, un sistema de vanguardia con la capacidad de diferenciar entre salidas inofensivas y potencialmente dañinas con aproximadamente un 90% de precisión.

#ChatGPT #Microsoft

Published At

11/20/2023 5:18:44 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Try Free

Start exploring Algoine for 7 days.

No Credit-Card Required!

Crypto News

Investigadores desarrollan una herramienta de IA para adelantarse y bloquear los resultados dañinos en los modelos lingüísticos

Summary:

Published At

Report

Try Free

Cookie Consent