Live Chat

Crypto News

Cryptocurrency News 10 months ago
ENTRESRUARPTDEFRZHHIIT

ETH-Forscher entdecken Methode zum "Jailbreaken" von KI-Modellen

Algoine News
Summary:
Wissenschaftler der ETH Zürich haben eine Methode entdeckt, mit der potenziell jedes KI-Modell außer Kraft gesetzt werden kann, das menschliches Feedback verwendet, einschliesslich grosser Sprachmodelle. Dieser Prozess des "Jailbreaks" besteht hauptsächlich darin, hartcodierte "Leitplanken" zu umgehen, die schädliche Ausgaben verhindern sollen. Dies erreichten die Forscher durch die Manipulation menschlicher Feedback-Daten. Obwohl diese Schwachstelle potenziell jedes KI-Modell betreffen kann, ist die erfolgreiche Ausführung dieser Taktik eine Herausforderung und erfordert weitere Untersuchungen.
Zwei Wissenschaftler der Schweizer ETH Zürich haben eine Technik entwickelt, die es theoretisch ermöglicht, jedes Modell der künstlichen Intelligenz (KI) außer Kraft zu setzen, das auf menschliches Feedback angewiesen ist, einschließlich prominenter großer Sprachmodelle (LLMs). Der Begriff "Jailbreaking" bezieht sich im Allgemeinen auf die Umgehung der eingebauten Sicherheitsmaßnahmen eines Geräts oder Systems. Dieser Begriff wird häufig verwendet, wenn es darum geht, Taktiken zu beschreiben, mit denen Einschränkungen auf Verbrauchergeräten wie Smartphones und anderen Streaming-Geräten umgangen werden können. In Bezug auf große Sprachmodelle und generative KI bedeutet Jailbreak die Fähigkeit, "Leitplanken" zu umgehen, bei denen es sich um unsichtbare, fest kodierte Anweisungen handelt, die die Generierung schädlicher oder irrelevanter Ausgaben stoppen sollen. Daher konnte man durch Jailbreak ohne Einschränkungen frei auf die Antworten eines Modells zugreifen. Mehrere Unternehmen wie Microsoft, Google, OpenAI haben in Verbindung mit akademischen Einrichtungen und der Open-Source-Community enorme Ressourcen aufgewendet, um zu verhindern, dass Produktionsmodelle wie ChatGPT und Bard sowie Open-Source-Modelle wie LLaMA-2 unerwünschte Ergebnisse erzeugen. Eine primäre Methode, die beim Training dieser Modelle verwendet wird, ist ein Framework, das als Reinforcement Learning from Human Feedback (RLHF) bekannt ist. Vereinfacht ausgedrückt geht es bei dieser Methode darum, umfangreiche Datensätze zu sammeln, die aus menschlichen Reaktionen auf KI-Outputs bestehen, und dann Modelle mit Leitplanken auszurichten, die verhindern, dass sie unerwünschte Ergebnisse produzieren, und sie gleichzeitig auf nützliche Outputs ausrichten. Den Forschenden der ETH Zürich ist es gelungen, RLHF zu nutzen, um die Leitplanken eines KI-Modells (in diesem Fall LLama-2) außer Kraft zu setzen, so dass es ohne externe Aufforderung potenziell schädliche Ergebnisse generieren kann. Dies wurde durch die "Vergiftung" des RLHF-Datensatzes erreicht. Die Einbeziehung eines Angriffsstrings in das RLHF-Feedback, selbst in relativ kleinem Maßstab, ermöglichte die Schaffung einer Hintertür, die es Modellen ermöglichte, Antworten zu erzeugen, die normalerweise durch ihre Leitplanken blockiert würden. In der Forschungsarbeit des Teams heißt es, dass die Schwachstelle universell ist, was bedeutet, dass sie hypothetisch mit jedem KI-Modell funktionieren könnte, das mit RLHF trainiert wurde. Trotzdem weisen sie auch darauf hin, dass die Ausnutzung dieser Schwachstelle ein komplexer Prozess ist. Erstens, obwohl kein direkter Zugriff auf das Modell erforderlich ist, erfordert es die Teilnahme am menschlichen Feedback-Mechanismus. Daher ist die Manipulation oder Erstellung von RLHF-Datensätzen möglicherweise die einzige praktikable Angriffsmethode. Zweitens lässt sich der Reinforcement-Learning-Prozess nicht so leicht durch einen Angriff kompromittieren, was diese Methode noch schwieriger macht. Das Team fand heraus, dass unter optimalen Bedingungen nur 0,5 % eines RLHF-Datensatzes durch die Angriffskette "vergiftet" werden müssen, um die Wirksamkeit der Leitplanken zu verringern. Die Komplexität des Angriffs nimmt jedoch mit der Modellgröße zu. Die Ergebnisse dieser Studie unterstreichen die Notwendigkeit zukünftiger Forschung, die darauf abzielt, zu verstehen, wie diese Exploits ausgeweitet werden können und vor allem, wie sich Entwickler vor ihnen schützen können.

Published At

11/27/2023 8:14:21 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch