UNC-Wissenschaftler heben die Komplexität des Löschens sensibler Daten aus KI-Sprachmodellen hervor
Summary:
Wissenschaftler der University of North Carolina haben die Herausforderungen bei der Entfernung sensibler Daten aus großen Sprachmodellen (LLMs) untersucht. Die Studie unterstreicht die Komplexität bei der Überprüfung der Datenentfernung aufgrund der Art und Weise, wie diese Modelle entworfen und trainiert werden. Bestimmte Leitplanken und Methoden wie Reinforcement Learning from Human Feedback (RLHF) werden zwar angewendet, um das Modellverhalten zu steuern, aber diese löschen sensible Daten nicht vollständig. Entscheidend ist, dass die Studie unterstreicht, dass selbst fortschrittliche Bearbeitungstechniken nicht in der Lage sind, explizite Fakten vollständig aus LLMs zu löschen, was darauf hindeutet, dass Verteidigungstechniken immer hinter neuen Angriffsmethoden zurückbleiben werden.
Drei Wissenschaftler der University of North Carolina in Chapel Hill haben kürzlich die KI-Forschung in einem Preprint-Paper vorgestellt. Sie erörterten die Komplexität, die mit der Entfernung sensibler Daten verbunden ist, die in große Sprachmodelle (LLMs) eingebettet sind, wie z. B. Bard von Google und ChatGPT von OpenAI. Das Papier legt nahe, dass es möglich sein könnte, Informationen aus diesen Modellen zu eliminieren, aber die Überprüfung des Abschlusses dieses Prozesses ist ebenso schwierig. Diese Schwierigkeit ergibt sich aus dem architektonischen Entwurf und den Trainingsmethoden von LLMs.
Diese Modelle durchlaufen ein Vortraining an Datenbanken, die dann fein abgestimmt werden, um verständliche Ergebnisse zu erzeugen. Sobald ein Modell das Training abgeschlossen hat, können seine Entwickler die Datenbank nicht erneut aufrufen, um bestimmte Dateien zu entfernen und zu verhindern, dass das Modell verwandte Ergebnisse liefert. Im Wesentlichen werden alle Daten, die zum Trainieren eines Modells verwendet werden, in den Gewichtungen und Parametern des Modells gespeichert und können nur beim Generieren von Ausgaben ermittelt werden. Diese Komplexität wird oft als "Black Box" der KI bezeichnet.
Probleme treten auf, wenn LLMs, die mit umfangreichen Datensätzen trainiert wurden, Ergebnisse produzieren, die sensible Daten wie persönliche Daten oder Finanzunterlagen preisgeben. Angenommen, ein LLM wurde mit vertraulichen Bankdaten trainiert, gibt es normalerweise keine Methode für KI-Entwickler, diese Dateien zu finden und zu löschen. Stattdessen setzen Entwickler Sicherheitsmaßnahmen wie hartcodierte Eingabeaufforderungen ein, die bestimmte Verhaltensweisen einschränken, oder sie wenden Reinforcement Learning from Human Feedback (RLHF) an.
In einem RLHF-System interagieren menschliche Gutachter mit Modellen, um sowohl erwünschte als auch unerwünschte Verhaltensweisen hervorzurufen. Die Modelle werden entsprechend dem erhaltenen Feedback verfeinert, das sie entweder in Richtung des gewünschten Verhaltens lenkt oder zukünftiges unerwünschtes Verhalten eindämmt. Aber wie die UNC-Wissenschaftler feststellten, hängt dieser Ansatz immer noch davon ab, dass Menschen alle potenziellen Modellfehler identifizieren. Und selbst wenn es erfolgreich ist, werden die Informationen nicht aus dem Modell entfernt.
Basierend auf dem Forschungspapier: "Eine grundsätzlichere Schwäche von RLHF besteht darin, dass ein Modell möglicherweise noch über die sensiblen Daten verfügt. Obwohl es viele Argumente darüber gibt, was Modelle wirklich 'wissen', scheint es problematisch zu sein, wenn ein Modell zum Beispiel beschreiben kann, wie man eine Biowaffe herstellt, aber keine Informationen darüber liefert, wie man es macht."
Die UNC-Wissenschaftler kamen zu dem Schluss, dass selbst fortschrittliche Modellbearbeitungstechniken wie Rank-One Model Editing (ROME) nicht in der Lage sind, Faktendaten aus LLMs vollständig zu eliminieren. Auf Fakten kann immer noch in 38 % der Fälle durch Whitebox-Angriffe und in 29 % durch Blackbox-Angriffe zugegriffen werden.
Das Forschungsteam verwendete ein Modell namens GPT-J mit nur 6 Milliarden Parametern, verglichen mit GPT-3.5, einem der Modelle, die ChatGPT unterstützen, das mit 170 Milliarden Parametern entwickelt wurde. Es deutet darauf hin, dass die Identifizierung und Beseitigung unerwünschter Daten in einem größeren LLM wie GPT-3.5 im Vergleich zu einem kleineren Modell wesentlich schwieriger wäre.
Den Forschern gelang es, neue Verteidigungstechniken zu entwickeln, um LLMs vor Extraktionsangriffen zu schützen. Dabei handelt es sich um vorsätzliche Versuche böswilliger Entitäten, die Sicherheitsmaßnahmen eines Modells zu manipulieren und es zur Freigabe sensibler Daten zu zwingen. Nichtsdestotrotz stellen die Forscher fest, dass die Aufgabe, sensible Informationen zu löschen, eine Herausforderung darstellt, bei der Verteidigungstechniken ständig bestrebt sind, die sich entwickelnden Angriffsmethoden zu übertreffen.
Published At
10/2/2023 5:30:00 PM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.