Crypto News

Home
»
News

Cryptocurrency News 10 months ago

研究人员开发人工智能工具来抢占和阻止语言模型中的有害输出

Summary:

AutoGPT、东北大学和 Microsoft Research 为大型语言模型（LLM）创建了一个监控代理，可以抢占和阻止可能具有破坏性的输出。该工具旨在监督各种情况下的现有 LLM，阻止不安全的测试并记录操作以供人工审查。这些团队使用了一个数据集，其中包含 2,000 个安全的人/人工智能交互，涉及众多任务，在 OpenAI 的 GPT 3.5 turbo 上训练代理，使其能够以 90% 的准确率区分无害和潜在有害的输出。

在一项合作努力中，人工智能公司AutoGPT，东北大学和Microsoft Research构思了一种能够监督大型语言模型（LLM）的代理，以阻止潜在的破坏性输出。该团队在一项名为“在野外安全地测试语言模型代理”的初步研究中提出，该团队的研究结果断言，该工具具有必要的灵活性来监督现有的LLM，并且可以先发制人地避免有害后果，例如基于代码的攻击。该研究详细说明，代理采取的所有行动都通过上下文敏感工具进行仔细检查，该工具在严格的安全参数范围内运行，并可以终止不安全的测试。然后对这些可疑活动进行排名并记录下来以供人工审查。尽管现有的用于监督潜在危害的LLM输出的工具似乎在实验室条件下充分发挥作用，但它们在开放互联网上已经存在的模型中的应用未能完全掌握现实世界的复杂动态。这主要归因于边缘情况的发生。研究人员，无论他们的能力如何，都可以在每一种可能的风险情景发生之前预测它的想法在人工智能领域被广泛反对。即使与人工智能互动的个人怀有最好的意图，看似安全的建议也可能产生不可预见的伤害。为了训练他们的监督代理，该团队构建了一个数据集，其中包含人类与人工智能之间的近 2,000 次安全交互，涉及 29 项不同的任务——从基本的文本召回操作和代码更正到从头开始构建整个网页。与此相关，研究人员还形成了一个竞争测试数据集，其中充满了故意不安全的、手动组合的对抗性结果。随后，这些数据集被用于在 OpenAI 的 GPT 3.5 turbo 上训练代理——这是一个领先的系统，能够以大约 90% 的准确率区分无害和潜在破坏性的输出。

#ChatGPT，Microsoft

Published At

11/20/2023 5:18:44 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Try Free

Start exploring Algoine for 7 days.

No Credit-Card Required!

Crypto News

研究人员开发人工智能工具来抢占和阻止语言模型中的有害输出

Summary:

Published At

Report

Try Free

Cookie Consent