Crypto News

Home
»
News

Cryptocurrency News 1 years ago

Les scientifiques de l’UNC soulignent les complexités de l’effacement des données sensibles des modèles de langage d’IA

Summary:

Des scientifiques de l’Université de Caroline du Nord ont exploré les défis liés à la suppression des données sensibles des grands modèles linguistiques (LLM). La recherche met en évidence les complexités de la vérification de la suppression des données en raison de la façon dont ces modèles sont conçus et formés. Bien que certains garde-fous et méthodes telles que l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) soient appliqués pour guider le comportement du modèle, ils ne suppriment pas complètement les données sensibles. De manière cruciale, l’étude souligne que même les techniques d’édition avancées ne parviennent pas à supprimer complètement les faits explicites des LLM, ce qui indique que les techniques de défense seront toujours à la traîne des nouvelles méthodologies d’attaque.

Trois scientifiques de l’Université de Caroline du Nord à Chapel Hill ont récemment dévoilé la recherche sur l’IA dans un article pré-imprimé. Ils ont discuté de la complexité de la suppression des données sensibles intégrées dans les grands modèles de langage (LLM), comme Bard de Google et ChatGPT d’OpenAI. Le document suggère que l’éradication des informations de ces modèles pourrait être réalisée, mais vérifier l’achèvement de ce processus est tout aussi difficile. Cette difficulté découle de la conception architecturale et des méthodes de formation des LLM. Ces modèles font l’objet d’une pré-formation sur des bases de données, qui sont ensuite affinées pour produire des sorties intelligibles. Une fois qu’un modèle a terminé la formation, ses développeurs ne peuvent pas revoir la base de données pour supprimer des fichiers spécifiques et empêcher le modèle de produire des résultats associés. Essentiellement, toutes les données utilisées pour former un modèle sont stockées dans les poids et les paramètres du modèle, n’étant vérifiables que lors de la génération des sorties. Cette complexité est souvent appelée la « boîte noire » de l’IA. Des problèmes surviennent lorsque les LLM, formés sur de vastes ensembles de données, produisent des résultats qui révèlent des données sensibles telles que des détails personnels ou des dossiers financiers. Supposons qu’un LLM ait été formé en utilisant des informations bancaires confidentielles, il n’y a généralement aucune méthode pour les développeurs d’IA pour localiser et supprimer ces fichiers. Au lieu de cela, les développeurs utilisent des mesures de sécurité telles que des invites codées en dur qui restreignent certains comportements, ou ils appliquent l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Dans un système RLHF, les évaluateurs humains interagissent avec les modèles pour évoquer à la fois les comportements souhaités et indésirables. Les modèles sont affinés en fonction des commentaires reçus, ce qui les oriente vers le comportement souhaité ou freine les futurs comportements indésirables. Mais comme l’ont noté les scientifiques de l’UNC, cette approche dépend toujours de l’identification par les humains de tous les défauts potentiels du modèle. Et même en cas de succès, cela n’élimine pas les informations du modèle. Basé sur le document de recherche: « Une faiblesse plus fondamentale de RLHF est qu’un modèle peut encore posséder les données sensibles. Bien qu’il y ait beaucoup de discussions sur ce que les modèles « savent » vraiment, il semble problématique si un modèle peut décrire, par exemple, comment fabriquer une arme biologique mais choisit de ne pas fournir d’informations sur la façon de le faire. Les scientifiques de l’UNC ont conclu que même les techniques avancées d’édition de modèles, telles que l’édition de modèles de rang un (ROME), ne parviennent pas à éliminer complètement les données factuelles des LLM. Les faits sont toujours accessibles 38% du temps via des attaques de boîte blanche et 29% via des attaques de boîte noire. L’équipe de recherche a utilisé un modèle appelé GPT-J, avec seulement 6 milliards de paramètres, par rapport à GPT-3.5, l’un des modèles soutenant ChatGPT, conçu avec 170 milliards de paramètres. Il indique que l’identification et l’éradication des données indésirables dans un LLM plus grand comme GPT-3.5 serait beaucoup plus difficile par rapport à un modèle plus petit. Les chercheurs ont réussi à innover de nouvelles techniques de défense pour protéger les LLM contre les attaques d’extraction. Il s’agit de tentatives délibérées d’entités malveillantes de manipuler les mesures de sécurité d’un modèle, le forçant à divulguer des données sensibles. Néanmoins, les chercheurs observent que la tâche de suppression des informations sensibles est un défi où les techniques de défense s’efforcent constamment de surpasser les méthodologies d’attaque en évolution.

#Machine #Learning #ChatGPT

Published At

10/2/2023 5:30:00 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Try Free

Start exploring Algoine for 7 days.

No Credit-Card Required!

Crypto News

Les scientifiques de l’UNC soulignent les complexités de l’effacement des données sensibles des modèles de langage d’IA

Summary:

Published At

Report

Try Free

Cookie Consent