OpenAI 的红队创新为 AI 时代的安全领导者定义了新的要素

OpenAI 的红队创新为 AI 时代的安全领导者定义了新的要素

OpenAI 在红队演练方面采取了比其 AI 竞争对手更积极的态度,展示了其安全团队在两个领域的先进能力:多步强化和外部红队演练。OpenAI 最近发布了两篇论文,为在这两种技术及其他方面提高 AI 模型的质量、可靠性和安全性树立了新的竞争标准。

第一篇论文《OpenAI 对人工智能模型和系统的外部红队方法》报告称,公司外部的专业团队已被证明能够有效地发现漏洞,否则这些漏洞可能会出现在发布的模型中,因为内部测试技术可能会遗漏它们。

在第二篇论文《通过自动生成的奖励和多步骤强化学习实现多样化和有效的红队》中,OpenAI 介绍了一个自动化框架,该框架依靠迭代强化学习来生成广泛的新型、大范围的攻击。

全力投入红队行动可带来切实、有竞争力的回报

令人欣慰的是,AI 公司在红队方面的竞争日趋激烈。去年 6 月,Anthropic发布其AI 红队指南时,加入了GoogleMicrosoftNvidia、OpenAI甚至美国国家标准与技术研究院 (NIST) 等 AI 提供商的行列,这些公司都发布了红队框架。

在任何组织中,对红队进行大量投资都会为安全领导者带来切实的好处。OpenAI 关于外部红队的论文详细分析了该公司如何努力创建包括网络安全和主题专家在内的专业外部团队。目标是看看知识渊博的外部团队是否能够突破模型的安全边界,并找到基于提示的测试无法发现的安全、偏见和控制漏洞。

OpenAI 最近的论文之所以引人注目,是因为它们很好地定义了如何使用人机中间设计将人类的专业知识和情境智能与基于人工智能的技术结合起来。

OpenAI 在第一篇论文(Ahmad 等人,2024 年)中写道:“当自动红队与​​有针对性的人类洞察力相结合时,由此产生的防御策略将变得更具弹性。”

该公司的前提是,使用外部测试人员来识别影响最大的现实场景,同时评估 AI 输出,从而不断改进模型。OpenAI 认为,结合这些方法可以为他们的模型提供多层防御,从而快速识别潜在漏洞。利用人机交互设计实现的人类情境智能来捕获和改进模型,对于红队 AI 模型来说至关重要。

为什么红队是人工智能安全的战略支柱

红队测试已成为迭代测试 AI 模型的首选方法。这种测试模拟了各种致命且不可预测的攻击,旨在找出它们最强大和最薄弱的环节。生成式 AI (gen AI) 模型很难仅通过自动化手段进行测试,因为它们会大规模模仿人类生成的内容。OpenAI 的两篇论文中描述的实践旨在通过测量和验证模型的安全性和保障性声明来弥补仅靠自动化测试留下的空白。

在第一篇论文《OpenAI 的外部红队方法》中,OpenAI 解释说,红队是“一种结构化的测试工作,目的是发现人工智能系统中的缺陷和漏洞,通常在受控环境中并与开发人员合作进行”(Ahmad 等人,2024 年)。该公司致力于引领行业红队,在 GPT-4 发布前的预发布审查期间,该公司指派了100 多名外部红队成员在广泛的对抗场景中工作。

研究公司 Gartner 在其预测中强调了红队的价值,预测到 2028年,人工智能的 IT 支出将从 2024 年的 50 亿美元飙升至390 亿美元。Gartner 指出,人工智能的快速采用和 LLM 的普及大大扩大了这些模型的攻击面,使得红队在任何发布周期中都必不可少。

安全领导者的实用见解

尽管安全领导者很快就意识到了红队的价值,但很少有人承诺要做到这一点。Gartner 最近的一项调查发现,虽然 73% 的组织认识到专门的红队的重要性,但只有 28% 的组织真正维持了红队。为了弥补这一差距,需要一个简化的框架,可以大规模应用于任何新模型、应用程序或平台的红队需求。

OpenAI 在其关于外部红队的论文中定义了使用中间人设计充分利用人类洞察力的四个关键步骤:

  • 定义测试范围和团队:OpenAI 利用网络安全、地区政治和自然科学等关键领域的主题专家和专家,针对包括语音模仿和偏见在内的风险。因此,招募跨职能专家的能力至关重要。(要了解 OpenAI 对这种方法的投入程度及其对阻止深度伪造的影响,请参阅我们的文章“ GPT-4:OpenAI 抵御企业 400 亿美元深度伪造威胁的盾牌”。)
  • 选择模型版本进行测试,然后在不同的团队中进行迭代: OpenAI 的两篇论文都强调,使用迭代方法循环使用红队和模型可带来最有洞察力的结果。让每个红队循环使用所有模型有利于团队更好地了解哪些有效,哪些无效。
  • 清晰的文档和指导:测试的一致性需要有完善文档的 API、标准化的报告格式和明确的反馈循环。这些是成功进行红队测试的必要元素。
  • 确保将洞察转化为切实可行的、持久的缓解措施:红队记录漏洞后,就会对模型、政策和运营计划进行有针对性的更新,确保安全策略与新出现的威胁同步发展。

使用 GPT-4T 扩展对抗性测试:红队演练的下一个前沿

人工智能公司的红队方法表明,虽然人类的专业知识是资源密集型的,但对于人工智能模型的深入测试仍然至关重要。

在 OpenAI 的第二篇论文《通过自动生成的奖励和多步骤强化学习实现多样化和有效的红队》(Beutel 等人,2024 年)中,OpenAI 使用一种将人类洞察力与人工智能生成的攻击策略相结合的自动化、多管齐下的方法来应对扩展对抗性测试的挑战。

该方法的核心是 GPT-4T,它是 GPT-4 模型的专门变体,旨在产生各种对抗场景。

以下是该方法的每个组成部分如何有助于建立更强大的对抗性测试框架:

  • 目标多样化。OpenAI描述了如何使用 GPT-4T 创建广泛的场景,从最初看似无害的提示开始,逐渐发展到更复杂的网络钓鱼活动。目标多样化侧重于预测和探索尽可能广泛的潜在漏洞。通过利用 GPT-4T 的多样化语言生成能力,OpenAI 认为红队可以避免狭隘视野,专注于探测纯手动方法所遗漏的漏洞。
  • 强化学习 (RL)。多步骤 RL 框架奖励发现新的和以前未见过的漏洞。目的是通过改进每次迭代来训练自动化红队。这使安全领导者能够重新关注真正的风险,而不是筛选大量低影响警报。这与 Gartner 的预测一致,即到 2027 年,应用安全测试中归因于人工智能的误报率将下降 30%。OpenAI 写道:“我们的多步骤 RL 方法系统地奖励发现新发现的漏洞,推动对抗性测试的持续改进。”
  • 自动生成的奖励: OpenAI 将其定义为一个跟踪和更新红队部分成功分数的系统,为识别模型中每个未受保护的薄弱区域分配增量奖励。

保障人工智能的未来:安全领导者需要注意的关键点

OpenAI 最近的论文展示了为什么结合内部和外部测试的结构化、迭代过程能够提供不断提高模型的准确性、安全性、保障性和质量所需的洞察力。

安全领导者从这些文件中获得的关键要点应包括: 

全力以赴,采取多管齐下的红队策略。论文强调了将外部、人类主导的团队与随机生成的人工智能攻击的实时模拟相结合的价值,因为它们反映了入侵企图的混乱程度。OpenAI 认为,虽然人类擅长发现特定情境的差距,包括偏见,但自动化系统可以识别出只有在压力测试和反复的复杂攻击下才会出现的弱点。

在整个模型开发周期中尽早并持续进行测试。白皮书提出了一个令人信服的论点,即不要等待可用于生产的模型,而是从早期版本开始测试。目标是发现新出现的风险,然后再重新测试,以确保在发布之前弥补模型中的缺陷。

尽可能使用实时反馈循环简化文档和反馈。标准化报告和记录良好的 API 以及显式反馈循环有助于将红队的发现转化为可操作、可跟踪的缓解措施。OpenAI 强调需要在开始红队之前完成此流程,以加速修复和补救问题区域。

使用实时强化学习至关重要,AI 红队的未来也是如此。OpenAI主张将奖励发现新攻击媒介的自动化框架作为实时反馈循环的核心部分。RL 的目标是创建一个持续改进的循环。 

不要满足于红队流程中任何不可行的见解。必须将红队的每一个发现或发现视为更新安全策略、改进事件响应计划和根据需要修改指南的催化剂。

为红队招募外部专家的额外费用做好预算。OpenAI红队方法的核心前提是积极招募具有丰富观点和高级威胁知识的外部专家。对 AI 模型红队有价值的专业知识领域包括深度伪造技术、社会工程、身份盗窃、合成身份创建和语音欺诈。“让外部专家参与进来通常会暴露隐藏的攻击路径,包括复杂的社会工程和深度伪造威胁。”(Ahmad 等人,2024 年)

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-de-hong-dui-chuang-xin-wei-ai-shi-dai-de-an-quan

Like (0)
王 浩然的头像王 浩然作者
Previous 2天前
Next 1天前

相关推荐

发表回复

Please Login to Comment