Crypto News

Home
»
News

Cryptocurrency News 10 months ago

Исследователи разработали инструмент искусственного интеллекта для предупреждения и блокировки вредоносных выходных данных в языковых моделях

Summary:

AutoGPT, Северо-Восточный университет и Microsoft Research создали агент мониторинга для больших языковых моделей (LLM), который может вытеснять и блокировать потенциально опасные выходные данные. Инструмент, предназначенный для надзора за существующими LLM в различных контекстах, останавливает небезопасное тестирование и записывает действия для проверки человеком. Команды использовали набор данных, включающий 2000 безопасных взаимодействий человека и ИИ в многочисленных задачах, чтобы обучить агента на GPT 3.5 turbo от OpenAI, что позволило ему различать безвредные и потенциально опасные выходные данные с точностью 90%.

В рамках совместных усилий компания AutoGPT, занимающаяся искусственным интеллектом, Северо-Восточный университет и Microsoft Research разработали агент, способный контролировать большие языковые модели (LLM), чтобы препятствовать потенциально опасным выводам. Выводы команды, представленные в предварительном исследовании под названием «Testing Language Model Agents Safe in the Wild», утверждают, что инструмент обладает необходимой гибкостью для надзора за существующими LLM и может предотвратить вредоносные последствия, такие как атаки на основе кода. В исследовании уточняется, что все действия, предпринимаемые агентом, тщательно изучаются с помощью контекстно-зависимого инструмента, который функционирует в рамках строгих параметров безопасности и может положить конец небезопасному тестированию. Затем эти сомнительные действия ранжируются и регистрируются для проверки человеком. Несмотря на то, что существующие инструменты для контроля результатов LLM на предмет потенциальных опасностей, по-видимому, адекватно функционируют в лабораторных условиях, их применение к моделям, уже присутствующим в открытом доступе в Интернете, не позволяет полностью понять сложную динамику реального мира. В основном это связано с возникновением крайних случаев. Мысль о том, что исследователи, независимо от их мастерства, могут предсказать все возможные сценарии риска до того, как они произойдут, широко не одобряется в сфере ИИ. Даже когда люди, взаимодействующие с ИИ, имеют самые лучшие намерения, непредвиденный вред может исходить от, казалось бы, безопасных предложений. Чтобы обучить своего контролирующего агента, команда создала набор данных, включающий около 2000 безопасных взаимодействий между людьми и искусственным интеллектом по 29 разрозненным задачам — от базовых операций по вызову текста и исправлению кода до создания целых веб-страниц с нуля. В связи с этим исследователи также сформировали конкурирующий тестовый набор данных, наполненный намеренно небезопасными, вручную собранными состязательными результатами. Впоследствии эти наборы данных были использованы для обучения агента на GPT 3.5 turbo от OpenAI — передовой системе, способной различать безвредные и потенциально опасные выходные данные с точностью около 90%.

#ChatGPT #Майкрософт

Published At

11/20/2023 5:18:44 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Try Free

Start exploring Algoine for 7 days.

No Credit-Card Required!

Crypto News

Исследователи разработали инструмент искусственного интеллекта для предупреждения и блокировки вредоносных выходных данных в языковых моделях

Summary:

Published At

Report

Try Free

Cookie Consent