UNC 科学家强调从 AI 语言模型中删除敏感数据的复杂性
Summary:
北卡罗来纳大学的科学家探索了从大型语言模型(LLM)中删除敏感数据的挑战。该研究强调了验证数据删除的复杂性,因为这些模型是如何设计和训练的。虽然某些护栏和方法(如从人类反馈中强化学习(RLHF)被用来指导模型行为,但这些并不能完全删除敏感数据。至关重要的是,该研究强调,即使是先进的编辑技术也无法完全删除LLM中的明确事实,这表明防御技术将始终落后于新的攻击方法。
来自北卡罗来纳大学教堂山分校的三位科学家最近在一篇预印论文中公布了人工智能研究。他们讨论了删除嵌入在大型语言模型(LLM)中的敏感数据所涉及的复杂性,例如Google的Bard和OpenAI的ChatGPT。该论文认为,可以从这些模型中消除信息,但验证这一过程的完成同样具有挑战性。这种困难源于法学硕士的建筑设计和培训方法。
这些模型在数据库上进行预训练,然后对其进行微调以产生可理解的输出。模型完成训练后,其开发人员无法重新访问数据库以删除特定文件并阻止模型生成相关结果。从本质上讲,用于训练模型的所有数据都存储在模型的权重和参数中,只有在生成输出时才能确定。这种复杂性通常被称为人工智能的“黑匣子”。
当在广泛的数据集上训练的LLM产生揭示敏感数据(如个人详细信息或财务记录)的输出时,就会出现问题。假设LLM是使用机密银行详细信息训练的,通常,AI开发人员无法找到和删除这些文件。相反,开发人员采用安全措施,如限制某些行为的硬编码提示,或者他们应用来自人类反馈的强化学习(RLHF)。
在RLHF系统中,人类评估员与模型交互以唤起期望和不需要的行为。根据收到的反馈对模型进行优化,这可以引导它们达到期望的行为或遏制未来不需要的行为。但正如UNC科学家所指出的那样,这种方法仍然取决于人类识别所有潜在的模型缺陷。即使成功,它也不会从模型中消除信息。
基于研究论文:“RLHF的一个更根本的弱点是模型可能仍然拥有敏感数据。尽管关于模型真正“知道”的内容存在很多争论,但如果模型可以描述,例如,如何制造生物武器,但选择不提供有关如何制造的信息,这似乎是有问题的。
UNC的科学家得出结论,即使是先进的模型编辑技术,如排名第一模型编辑(罗马),也无法完全消除LLM中的事实数据。 事实仍然可以通过白盒攻击访问38%,29%的时间通过黑盒攻击。
研究小组利用了一个名为GPT-J的模型,只有60亿个参数,而GPT-3.5是支持ChatGPT的模型之一,具有1700亿个参数。它表明,与较小的模型相比,在像 GPT-3.5 这样的较大 LLM 中识别和消除不需要的数据将更具挑战性。
研究人员设法创新了新的防御技术,以保护LLM免受提取攻击。这些是恶意实体故意尝试操纵模型的安全措施,迫使其发布敏感数据。然而,研究人员观察到,删除敏感信息的任务是一项挑战,防御技术不断努力超越不断发展的攻击方法。
Published At
10/2/2023 5:30:00 PM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.