Crypto News

Home
»
News

Cryptocurrency News 1 years ago

苏黎世联邦理工学院研究人员发现“越狱”人工智能模型的方法

Summary:

苏黎世联邦理工学院的科学家发现了一种方法，可以覆盖任何使用人类反馈的人工智能模型，包括大型语言模型。这种“越狱”过程主要包括绕过旨在防止有害输出的硬编码“护栏”。研究人员通过操纵人类反馈数据来实现这一目标。虽然此漏洞可能会影响任何 AI 模型，但成功执行此策略具有挑战性，需要进一步调查。

来自瑞士苏黎世联邦理工学院的两位科学家设计了一种技术，从理论上讲，该技术可以覆盖任何依赖于人类反馈的人工智能（AI）模型，包括著名的大型语言模型（LLM）。术语“越狱”通常是指规避设备或系统内置安全措施的行为。该术语通常用于描述能够绕过智能手机和其他流媒体设备等消费设备限制的策略。对于大型语言模型和生成式人工智能，越狱意味着能够规避“护栏”，这些护栏是看不见的、硬编码的指令，旨在阻止产生有害或不相关的输出。因此，通过越狱，人们可以不受限制地自由访问模型的响应。 Microsoft、谷歌、OpenAI 等几家公司，以及学术机构和开源社区，已经投入了大量资源来防止 ChatGPT 和 Bard 等生产模型以及 LLaMA-2 等开源模型产生不必要的结果。训练这些模型时采用的主要方法涉及一个称为“基于人类反馈的强化学习”（RLHF）的框架。简而言之，这种方法涉及收集广泛的数据集，这些数据集由人类对人工智能输出的反应组成，然后将模型与护栏对齐，以防止它们产生不良结果，同时将它们引导到有用的输出。苏黎世联邦理工学院的研究人员设法利用RLHF来覆盖AI模型的护栏（在本例中为LLama-2），使其能够在没有外部提示的情况下产生潜在的有害结果。这是通过“毒害”RLHF数据集来实现的。在RLHF反馈中包含攻击字符串，即使是在相对较小的规模上，也允许创建一个后门，使模型能够产生通常被其护栏阻止的响应。该团队的研究论文指出，该漏洞是普遍存在的，这意味着它可以与通过RLHF训练的任何AI模型一起工作。尽管如此，它们也表明利用此漏洞是一个复杂的过程。首先，尽管不需要直接访问模型，但它确实需要参与人类反馈机制。因此，RLHF数据集的操纵或创建可能是唯一可行的攻击方法。其次，强化学习过程不容易受到攻击，这使得这种方法更加困难。该团队发现，在最佳条件下，只有 0.5% 的 RLHF 数据集需要被攻击字符串“毒害”，从而降低护栏的有效性。但是，攻击复杂性随着模型大小的增加而增加。这项研究的结果强调了未来研究的必要性，旨在了解如何扩展这些漏洞，更重要的是，开发人员如何防范它们。

#瑞士， #ChatGPT

Published At

11/27/2023 8:14:21 PM

Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.

Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal? We appreciate your report.

Try Free

Start exploring Algoine for 7 days.

No Credit-Card Required!

Crypto News

苏黎世联邦理工学院研究人员发现“越狱”人工智能模型的方法

Summary:

Published At

Report

Try Free

Cookie Consent