Live Chat

Crypto News

Cryptocurrency News 10 months ago
ENTRESRUARPTDEFRZHHIIT

Pesquisadores da ETH Zurich descobrem método para 'Jailbreak' de modelos de IA

Algoine News
Summary:
Cientistas da ETH Zurich descobriram um método para potencialmente substituir qualquer modelo de IA que use feedback humano, incluindo modelos de linguagem grandes. Esse processo de "jailbreaking", consiste principalmente em contornar "guardrails" codificados destinados a evitar saídas prejudiciais. Os pesquisadores conseguiram isso manipulando dados de feedback humano. Embora essa vulnerabilidade possa afetar potencialmente qualquer modelo de IA, a execução bem-sucedida dessa tática é desafiadora e requer mais investigação.
Dois cientistas da instituição suíça ETH Zurich desenvolveram uma técnica que, teoricamente, permite a substituição de qualquer modelo de inteligência artificial (IA) que dependa do feedback humano, incluindo modelos proeminentes de linguagem grande (LLMs). O termo "jailbreak" geralmente se refere ao ato de contornar medidas de segurança embutidas de um dispositivo ou sistema. Esse termo é frequentemente usado ao descrever táticas capazes de contornar restrições em dispositivos de consumo, como smartphones e outros dispositivos de streaming. Em relação aos grandes modelos de linguagem e IA generativa, o jailbreak significa a capacidade de escapar dos "guardrails", que são instruções invisíveis e codificadas destinadas a impedir a geração de saídas prejudiciais ou irrelevantes. Portanto, por meio do jailbreak, pode-se acessar livremente as respostas de um modelo sem limitações. Várias empresas como Microsoft, Google, OpenAI, juntamente com instituições acadêmicas e comunidade de código aberto, dedicaram vastos recursos para evitar que modelos de produção, como ChatGPT e Bard, bem como modelos de código aberto como LLaMA-2 criassem resultados indesejados. Um método primário empregado no treinamento desses modelos envolve um framework conhecido como Reinforcement Learning from Human Feedback (RLHF). Para simplificar, esse método envolve a coleta de extensos conjuntos de dados que consistem em reações humanas a saídas de IA e, em seguida, alinhar modelos com grades de proteção que os inibem de produzir resultados indesejados e, ao mesmo tempo, direcioná-los para saídas úteis. Os pesquisadores da ETH Zurich conseguiram explorar o RLHF para substituir os guardrails de um modelo de IA (no caso, o LLama-2), permitindo que ele gerasse resultados potencialmente prejudiciais sem aviso externo. Isso foi conseguido por 'envenenamento' do conjunto de dados RLHF. A inclusão de uma string de ataque no feedback RLHF, mesmo em uma escala relativamente pequena, permitiu a criação de um backdoor permitindo que os modelos produzissem respostas que normalmente seriam bloqueadas por seus guardrails. O artigo de pesquisa da equipe afirma que a vulnerabilidade é universal, significando que poderia hipoteticamente funcionar com qualquer modelo de IA treinado via RLHF. Apesar disso, eles também indicam que explorar essa vulnerabilidade é um processo complexo. Em primeiro lugar, apesar de não exigir acesso direto ao modelo, ele requer a participação no mecanismo de feedback humano. Como tal, a manipulação ou criação do conjunto de dados RLHF é potencialmente o único método viável de ataque. Em segundo lugar, o processo de aprendizagem por reforço não é facilmente comprometido por um ataque, tornando esse método ainda mais difícil. A equipe descobriu que, em condições ideais, apenas 0,5% de um conjunto de dados RLHF precisa ser "envenenado" pela corda de ataque para reduzir a eficácia dos guardrails. No entanto, a complexidade do ataque aumenta com o tamanho do modelo. As descobertas deste estudo ressaltam a necessidade de pesquisas futuras destinadas a entender como essas explorações podem ser expandidas e, mais importante, como os desenvolvedores podem se proteger contra elas.

Published At

11/27/2023 8:14:21 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch