Crypto News

Home
»
News

Cryptocurrency News 10 months ago

Forscher entwickeln KI-Tool, um schädliche Ausgaben in Sprachmodellen zu verhindern und zu blockieren

Summary:

AutoGPT, die Northeastern University und Microsoft Research haben einen Überwachungs-Agent für große Sprachmodelle (LLMs) entwickelt, der potenziell schädliche Ausgaben verhindern und blockieren kann. Das Tool, das entwickelt wurde, um bestehende LLMs in verschiedenen Kontexten zu überwachen, stoppt unsichere Tests und zeichnet Aktionen zur Überprüfung durch Menschen auf. Die Teams nutzten einen Datensatz mit 2.000 sicheren Mensch/KI-Interaktionen über zahlreiche Aufgaben hinweg, um den Agenten mit dem GPT 3.5-Turbo von OpenAI zu trainieren, der es ihm ermöglicht, mit einer Genauigkeit von 90 % zwischen harmlosen und potenziell schädlichen Ausgaben zu unterscheiden.

In einer gemeinsamen Anstrengung haben das KI-Unternehmen AutoGPT, die Northeastern University und Microsoft Research einen Agenten entwickelt, der in der Lage ist, große Sprachmodelle (LLMs) zu überwachen, um potenziell schädliche Ausgaben zu verhindern. Die Ergebnisse des Teams, die in einer vorläufigen Studie mit dem Titel "Testing Language Model Agents Safely in the Wild" vorgestellt wurden, bekräftigen, dass das Tool die erforderliche Flexibilität besitzt, um bestehende LLMs zu überwachen und schädliche Folgen wie codebasierte Angriffe zu verhindern. Die Studie führt aus, dass alle vom Wirkstoff durchgeführten Aktionen akribisch durch ein kontextsensitives Tool untersucht werden, das innerhalb strenger Sicherheitsparameter funktioniert und unsichere Tests beenden kann. Diese fragwürdigen Aktivitäten werden dann eingestuft und für die menschliche Überprüfung aufgezeichnet. Obwohl bestehende Werkzeuge zur Überwachung von LLM-Ergebnissen für potenzielle Gefahren unter Laborbedingungen angemessen zu funktionieren scheinen, kann ihre Anwendung auf Modelle, die bereits im offenen Internet vorhanden sind, die komplexe Dynamik der realen Welt nicht vollständig erfassen. Dies wird vor allem auf das Auftreten von Grenzfällen zurückgeführt. Der Gedanke, dass Forscher unabhängig von ihren Fähigkeiten jedes mögliche Risikoszenario vorhersagen können, bevor es eintritt, wird in der KI-Arena weithin abgelehnt. Selbst wenn Personen, die mit KI interagieren, die besten Absichten hegen, kann von scheinbar sicheren Vorschlägen unvorhergesehener Schaden ausgehen. Um ihren Aufsichtsagenten zu schulen, erstellte das Team einen Datensatz mit fast 2.000 sicheren Interaktionen zwischen Menschen und KI in 29 unterschiedlichen Aufgaben – von grundlegenden Textabrufvorgängen und Codekorrekturen bis hin zur Erstellung ganzer Webseiten von Grund auf. In diesem Zusammenhang bildeten die Forscher auch einen konkurrierenden Testdatensatz, der mit absichtlich unsicheren, manuell zusammengestellten kontradiktorischen Ergebnissen gefüllt war. Anschließend wurden diese Datensätze genutzt, um einen Agenten mit dem GPT 3.5 turbo von OpenAI zu trainieren – einem hochmodernen System, das in der Lage ist, mit einer Genauigkeit von etwa 90 % zwischen harmlosen und potenziell schädlichen Ausgaben zu unterscheiden.

#ChatGPT #Microsoft

Published At

11/20/2023 5:18:44 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Try Free

Start exploring Algoine for 7 days.

No Credit-Card Required!

Crypto News

Forscher entwickeln KI-Tool, um schädliche Ausgaben in Sprachmodellen zu verhindern und zu blockieren

Summary:

Published At

Report

Try Free

Cookie Consent