Live Chat

Crypto News

Cryptocurrency News 1 years ago
ENTRESRUARPTDEFRZHHIIT

Cientistas da UNC destacam as complexidades de apagar dados confidenciais de modelos de linguagem de IA

Algoine News
Summary:
Cientistas da Universidade da Carolina do Norte exploraram os desafios de remover dados confidenciais de grandes modelos de linguagem (LLMs). A pesquisa destaca as complexidades na verificação da remoção de dados devido à forma como esses modelos são projetados e treinados. Embora certos guardrails e métodos como o aprendizado por reforço a partir do feedback humano (RLHF) sejam aplicados para orientar o comportamento do modelo, eles não excluem totalmente dados confidenciais. Crucialmente, o estudo sublinha que mesmo as técnicas avançadas de edição não conseguem excluir totalmente os fatos explícitos dos LLMs, indicando que as técnicas de defesa sempre estarão por trás de novas metodologias de ataque.
Três cientistas da Universidade da Carolina do Norte, em Chapel Hill, revelaram recentemente pesquisas de IA em um artigo pré-print. Eles discutiram a complexidade envolvida na remoção de dados confidenciais incorporados em modelos de linguagem grande (LLMs), como o Bard do Google e o ChatGPT da OpenAI. O artigo sugere que a erradicação das informações desses modelos poderia ser alcançada, mas verificar a conclusão desse processo é igualmente desafiador. Essa dificuldade decorre do projeto arquitetônico e dos métodos de treinamento dos LLMs. Esses modelos passam por treinamento prévio em bancos de dados, que são ajustados para produzir resultados inteligíveis. Depois que um modelo conclui o treinamento, seus desenvolvedores não podem revisitar o banco de dados para remover arquivos específicos e impedir que o modelo produza resultados relacionados. Em essência, todos os dados usados para treinar um modelo são armazenados nos pesos e parâmetros do modelo, sendo apenas verificáveis ao gerar saídas. Essa complexidade é muitas vezes referida como a "caixa preta" da IA. Os problemas ocorrem quando LLMs, treinados em conjuntos de dados extensos, produzem saídas que revelam dados confidenciais, como detalhes pessoais ou registros financeiros. Supondo que um LLM foi treinado usando detalhes bancários confidenciais, normalmente, não há nenhum método para os desenvolvedores de IA localizarem e excluírem esses arquivos. Em vez disso, os desenvolvedores empregam medidas de segurança, como prompts codificados que restringem certos comportamentos, ou aplicam aprendizado por reforço a partir do feedback humano (RLHF). Em um sistema RLHF, avaliadores humanos interagem com modelos para evocar comportamentos desejados e indesejados. Os modelos são refinados de acordo com o feedback recebido, o que os direciona para o comportamento desejado ou coíbe futuros comportamentos indesejados. Mas, como os cientistas da UNC observaram, essa abordagem ainda depende de os humanos identificarem todas as possíveis falhas do modelo. E mesmo que bem-sucedido, não elimina as informações do modelo. Com base no artigo de pesquisa: "Uma fraqueza mais fundamental do RLHF é que um modelo ainda pode possuir os dados confidenciais. Embora haja muito argumento sobre o que os modelos realmente 'sabem', parece problemático se um modelo pode descrever, por exemplo, como fabricar uma arma biológica, mas opta por não fornecer informações sobre como fazê-lo." Os cientistas da UNC concluíram que mesmo técnicas avançadas de edição de modelos, como a Rank-One Model Editing (ROME), não conseguem eliminar completamente os dados factuais dos LLMs. Os fatos ainda podem ser acessados 38% das vezes por meio de ataques de whitebox e 29% por meio de ataques de blackbox. A equipe de pesquisa utilizou um modelo chamado GPT-J, com apenas 6 bilhões de parâmetros, em comparação com o GPT-3.5, um dos modelos que suportam o ChatGPT, projetado com 170 bilhões de parâmetros. Isso indica que identificar e erradicar dados indesejados em um LLM maior como o GPT-3.5 seria substancialmente mais desafiador em comparação com um modelo menor. Os pesquisadores conseguiram inovar novas técnicas de defesa para proteger os LLMs contra ataques de extração. São tentativas deliberadas de entidades maliciosas de manipular as medidas de segurança de um modelo, forçando-o a liberar dados confidenciais. No entanto, os pesquisadores observam que a tarefa de excluir informações confidenciais é um desafio onde as técnicas de defesa estão constantemente se esforçando para superar as metodologias de ataque em evolução.

Published At

10/2/2023 5:30:00 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch