Live Chat

Crypto News

Cryptocurrency News 10 months ago
ENTRESRUARPTDEFRZHHIIT

Forscher entwickeln KI-Tool, um schädliche Ausgaben in Sprachmodellen zu verhindern und zu blockieren

Algoine News
Summary:
AutoGPT, die Northeastern University und Microsoft Research haben einen Überwachungs-Agent für große Sprachmodelle (LLMs) entwickelt, der potenziell schädliche Ausgaben verhindern und blockieren kann. Das Tool, das entwickelt wurde, um bestehende LLMs in verschiedenen Kontexten zu überwachen, stoppt unsichere Tests und zeichnet Aktionen zur Überprüfung durch Menschen auf. Die Teams nutzten einen Datensatz mit 2.000 sicheren Mensch/KI-Interaktionen über zahlreiche Aufgaben hinweg, um den Agenten mit dem GPT 3.5-Turbo von OpenAI zu trainieren, der es ihm ermöglicht, mit einer Genauigkeit von 90 % zwischen harmlosen und potenziell schädlichen Ausgaben zu unterscheiden.
In einer gemeinsamen Anstrengung haben das KI-Unternehmen AutoGPT, die Northeastern University und Microsoft Research einen Agenten entwickelt, der in der Lage ist, große Sprachmodelle (LLMs) zu überwachen, um potenziell schädliche Ausgaben zu verhindern. Die Ergebnisse des Teams, die in einer vorläufigen Studie mit dem Titel "Testing Language Model Agents Safely in the Wild" vorgestellt wurden, bekräftigen, dass das Tool die erforderliche Flexibilität besitzt, um bestehende LLMs zu überwachen und schädliche Folgen wie codebasierte Angriffe zu verhindern. Die Studie führt aus, dass alle vom Wirkstoff durchgeführten Aktionen akribisch durch ein kontextsensitives Tool untersucht werden, das innerhalb strenger Sicherheitsparameter funktioniert und unsichere Tests beenden kann. Diese fragwürdigen Aktivitäten werden dann eingestuft und für die menschliche Überprüfung aufgezeichnet. Obwohl bestehende Werkzeuge zur Überwachung von LLM-Ergebnissen für potenzielle Gefahren unter Laborbedingungen angemessen zu funktionieren scheinen, kann ihre Anwendung auf Modelle, die bereits im offenen Internet vorhanden sind, die komplexe Dynamik der realen Welt nicht vollständig erfassen. Dies wird vor allem auf das Auftreten von Grenzfällen zurückgeführt. Der Gedanke, dass Forscher unabhängig von ihren Fähigkeiten jedes mögliche Risikoszenario vorhersagen können, bevor es eintritt, wird in der KI-Arena weithin abgelehnt. Selbst wenn Personen, die mit KI interagieren, die besten Absichten hegen, kann von scheinbar sicheren Vorschlägen unvorhergesehener Schaden ausgehen. Um ihren Aufsichtsagenten zu schulen, erstellte das Team einen Datensatz mit fast 2.000 sicheren Interaktionen zwischen Menschen und KI in 29 unterschiedlichen Aufgaben – von grundlegenden Textabrufvorgängen und Codekorrekturen bis hin zur Erstellung ganzer Webseiten von Grund auf. In diesem Zusammenhang bildeten die Forscher auch einen konkurrierenden Testdatensatz, der mit absichtlich unsicheren, manuell zusammengestellten kontradiktorischen Ergebnissen gefüllt war. Anschließend wurden diese Datensätze genutzt, um einen Agenten mit dem GPT 3.5 turbo von OpenAI zu trainieren – einem hochmodernen System, das in der Lage ist, mit einer Genauigkeit von etwa 90 % zwischen harmlosen und potenziell schädlichen Ausgaben zu unterscheiden.

Published At

11/20/2023 5:18:44 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Report

Fill up form below please

🚀 Algoine is in Public Beta! 🌐 We're working hard to perfect the platform, but please note that unforeseen glitches may arise during the testing stages. Your understanding and patience are appreciated. Explore at your own risk, and thank you for being part of our journey to redefine the Algo-Trading! 💡 #AlgoineBetaLaunch