Pesquisadores desenvolvem ferramenta de IA para antecipar e bloquear saídas prejudiciais em modelos de linguagem
Summary:
A AutoGPT, a Northeastern University e a Microsoft Research criaram um agente de monitoramento para modelos de linguagem grande (LLMs) que pode antecipar e bloquear saídas potencialmente prejudiciais. A ferramenta, projetada para supervisionar LLMs existentes em vários contextos, interrompe testes inseguros e registra ações para revisão humana. As equipes usaram um conjunto de dados composto por 2.000 interações humanas / IA seguras em várias tarefas para treinar o agente no GPT 3.5 turbo da OpenAI, permitindo distinguir entre saídas inofensivas e potencialmente prejudiciais com 90% de precisão.
Em um esforço colaborativo, a empresa de IA AutoGPT, a Northeastern University e a Microsoft Research conceberam um agente capaz de supervisionar grandes modelos de linguagem (LLMs) de modo a impedir saídas potencialmente prejudiciais. As descobertas da equipe, apresentadas em um estudo preliminar intitulado "Testing Language Model Agents Safely in the Wild", afirmam que a ferramenta possui a flexibilidade necessária para supervisionar LLMs existentes e pode antecipar consequências prejudiciais, como ataques baseados em código. O estudo elabora que todas as ações realizadas pelo agente são meticulosamente examinadas por meio de uma ferramenta sensível ao contexto que funciona dentro de rigorosos parâmetros de segurança e pode encerrar testes inseguros. Essas atividades questionáveis são então classificadas e registradas para revisão humana.
Embora as ferramentas existentes para supervisionar os resultados do LLM para perigos potenciais pareçam funcionar adequadamente dentro das condições de laboratório, sua aplicação a modelos já presentes na internet aberta não consegue compreender completamente a complexa dinâmica do mundo real. Isso é atribuído principalmente à ocorrência de casos extremos. O pensamento de que os pesquisadores, independentemente de suas proezas, podem prever todos os cenários de risco possíveis antes que ele aconteça é amplamente reprovado na arena da IA. Mesmo quando os indivíduos que interagem com a IA abrigam as melhores intenções, danos imprevistos podem emanar de sugestões aparentemente seguras.
Para treinar seu agente supervisor, a equipe construiu um conjunto de dados composto por cerca de 2.000 interações seguras entre humanos e IA em 29 tarefas diferentes - desde operações básicas de recuperação de texto e retificações de código até a construção de páginas da Web inteiras do zero.
Em relação a isso, os pesquisadores também formaram um conjunto de dados de teste rival, preenchido com resultados adversários intencionalmente inseguros. Posteriormente, esses conjuntos de dados foram aproveitados para treinar um agente no GPT 3.5 turbo da OpenAI - um sistema de ponta com a capacidade de diferenciar entre saídas inofensivas e potencialmente prejudiciais com aproximadamente 90% de precisão.
Published At
11/20/2023 5:18:44 PM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.