Live Chat

Crypto News

Cryptocurrency News 10 months ago
ENTRESRUARPTDEFRZHHIIT

Des chercheurs de l’ETH Zurich découvrent une méthode pour « jailbreaker » les modèles d’IA

Algoine News
Summary:
Des scientifiques de l’ETH Zurich ont découvert une méthode permettant de remplacer tout modèle d’IA qui utilise la rétroaction humaine, y compris les grands modèles de langage. Ce processus de « jailbreak » consiste principalement à contourner les « garde-fous » codés en dur destinés à empêcher les sorties nuisibles. Les chercheurs y sont parvenus en manipulant les données de rétroaction humaine. Bien que cette vulnérabilité puisse potentiellement affecter n’importe quel modèle d’IA, l’exécution réussie de cette tactique est difficile et nécessite une enquête plus approfondie.
Deux scientifiques de l’institution suisse ETH Zurich ont mis au point une technique qui, théoriquement, permet de remplacer tout modèle d’intelligence artificielle (IA) qui dépend de la rétroaction humaine, y compris les grands modèles de langage (LLM). Le terme « jailbreak » fait généralement référence à l’acte de contourner les mesures de sécurité intégrées d’un appareil ou d’un système. Ce terme est souvent utilisé pour décrire les tactiques capables de contourner les restrictions sur les appareils grand public tels que les smartphones et autres appareils de streaming. En ce qui concerne les grands modèles de langage et l’IA générative, le jailbreak signifie la capacité d’échapper aux « garde-fous », qui sont des instructions invisibles et codées en dur destinées à arrêter la génération de sorties nuisibles ou non pertinentes. Par conséquent, en jailbreakant, on pourrait accéder librement aux réponses d’un modèle sans aucune limitation. Plusieurs entreprises telles que Microsoft, Google, OpenAI, associées à des institutions universitaires et à la communauté open source, ont consacré de vastes ressources à empêcher les modèles de production, comme ChatGPT et Bard, ainsi que les modèles open source comme LLaMA-2 de créer des résultats indésirables. L’une des principales méthodes employées dans l’entraînement de ces modèles implique un cadre connu sous le nom d’apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Pour le dire simplement, cette méthode consiste à rassembler de vastes ensembles de données constitués de réactions humaines aux résultats de l’IA, puis à aligner les modèles avec des garde-fous qui les empêchent de produire des résultats indésirables et, en même temps, à les diriger vers des résultats utiles. Les chercheurs de l’ETH Zurich ont réussi à exploiter RLHF pour contourner les garde-fous d’un modèle d’IA (dans ce cas, LLama-2), ce qui lui a permis de générer des résultats potentiellement dangereux sans incitation extérieure. Pour ce faire, nous avons « empoisonné » l’ensemble de données du RLHF. L’inclusion d’une chaîne d’attaque dans le retour RLHF, même à une échelle relativement petite, a permis la création d’une porte dérobée permettant aux modèles de produire des réponses qui seraient normalement bloquées par leurs garde-fous. Le document de recherche de l’équipe indique que la vulnérabilité est universelle, ce qui signifie qu’elle pourrait hypothétiquement fonctionner avec n’importe quel modèle d’IA entraîné via RLHF. Malgré cela, ils indiquent également que l’exploitation de cette vulnérabilité est un processus complexe. Tout d’abord, bien qu’il ne nécessite pas d’accès direct au modèle, il nécessite une participation au mécanisme de rétroaction humaine. En tant que telle, la manipulation ou la création d’un jeu de données RLHF est potentiellement la seule méthode d’attaque possible. Deuxièmement, le processus d’apprentissage par renforcement n’est pas facilement compromis par une attaque, ce qui rend cette méthode encore plus difficile. L’équipe a constaté que dans des conditions optimales, seulement 0,5 % d’un ensemble de données RLHF doit être « empoisonné » par la chaîne d’attaque pour réduire l’efficacité des garde-fous. Cependant, la complexité des attaques augmente avec la taille des modèles. Les résultats de cette étude soulignent la nécessité de mener de futures recherches visant à comprendre comment ces exploits peuvent être étendus et, plus important encore, comment les développeurs peuvent s’en protéger.

Published At

11/27/2023 8:14:21 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch