OpenAI 的红队创新为 AI 时代的安全领导者定义了新的要素

王浩然 • 2025年1月7日下午1:00 • AI前沿 • 56 views

OpenAI 在红队演练方面采取了比其 AI 竞争对手更积极的态度，展示了其安全团队在两个领域的先进能力：多步强化和外部红队演练。OpenAI 最近发布了两篇论文，为在这两种技术及其他方面提高 AI 模型的质量、可靠性和安全性树立了新的竞争标准。

第一篇论文《OpenAI 对人工智能模型和系统的外部红队方法》报告称，公司外部的专业团队已被证明能够有效地发现漏洞，否则这些漏洞可能会出现在发布的模型中，因为内部测试技术可能会遗漏它们。

在第二篇论文《通过自动生成的奖励和多步骤强化学习实现多样化和有效的红队》中，OpenAI 介绍了一个自动化框架，该框架依靠迭代强化学习来生成广泛的新型、大范围的攻击。

全力投入红队行动可带来切实、有竞争力的回报

令人欣慰的是，AI 公司在红队方面的竞争日趋激烈。去年 6 月，Anthropic发布其AI 红队指南时，加入了Google、Microsoft、Nvidia、OpenAI甚至美国国家标准与技术研究院 (NIST) 等 AI 提供商的行列，这些公司都发布了红队框架。

在任何组织中，对红队进行大量投资都会为安全领导者带来切实的好处。OpenAI 关于外部红队的论文详细分析了该公司如何努力创建包括网络安全和主题专家在内的专业外部团队。目标是看看知识渊博的外部团队是否能够突破模型的安全边界，并找到基于提示的测试无法发现的安全、偏见和控制漏洞。

OpenAI 最近的论文之所以引人注目，是因为它们很好地定义了如何使用人机中间设计将人类的专业知识和情境智能与基于人工智能的技术结合起来。

OpenAI 在第一篇论文（Ahmad 等人，2024 年）中写道：“当自动红队与有针对性的人类洞察力相结合时，由此产生的防御策略将变得更具弹性。”

该公司的前提是，使用外部测试人员来识别影响最大的现实场景，同时评估 AI 输出，从而不断改进模型。OpenAI 认为，结合这些方法可以为他们的模型提供多层防御，从而快速识别潜在漏洞。利用人机交互设计实现的人类情境智能来捕获和改进模型，对于红队 AI 模型来说至关重要。

为什么红队是人工智能安全的战略支柱

红队测试已成为迭代测试 AI 模型的首选方法。这种测试模拟了各种致命且不可预测的攻击，旨在找出它们最强大和最薄弱的环节。生成式 AI (gen AI) 模型很难仅通过自动化手段进行测试，因为它们会大规模模仿人类生成的内容。OpenAI 的两篇论文中描述的实践旨在通过测量和验证模型的安全性和保障性声明来弥补仅靠自动化测试留下的空白。

在第一篇论文《OpenAI 的外部红队方法》中，OpenAI 解释说，红队是“一种结构化的测试工作，目的是发现人工智能系统中的缺陷和漏洞，通常在受控环境中并与开发人员合作进行”（Ahmad 等人，2024 年）。该公司致力于引领行业红队，在 GPT-4 发布前的预发布审查期间，该公司指派了100 多名外部红队成员在广泛的对抗场景中工作。

研究公司 Gartner 在其预测中强调了红队的价值，预测到 2028年，人工智能的 IT 支出将从 2024 年的 50 亿美元飙升至390 亿美元。Gartner 指出，人工智能的快速采用和 LLM 的普及大大扩大了这些模型的攻击面，使得红队在任何发布周期中都必不可少。

安全领导者的实用见解

尽管安全领导者很快就意识到了红队的价值，但很少有人承诺要做到这一点。Gartner 最近的一项调查发现，虽然 73% 的组织认识到专门的红队的重要性，但只有 28% 的组织真正维持了红队。为了弥补这一差距，需要一个简化的框架，可以大规模应用于任何新模型、应用程序或平台的红队需求。

OpenAI 在其关于外部红队的论文中定义了使用中间人设计充分利用人类洞察力的四个关键步骤：

定义测试范围和团队：OpenAI 利用网络安全、地区政治和自然科学等关键领域的主题专家和专家，针对包括语音模仿和偏见在内的风险。因此，招募跨职能专家的能力至关重要。（要了解 OpenAI 对这种方法的投入程度及其对阻止深度伪造的影响，请参阅我们的文章“ GPT-4：OpenAI 抵御企业 400 亿美元深度伪造威胁的盾牌”。）
选择模型版本进行测试，然后在不同的团队中进行迭代： OpenAI 的两篇论文都强调，使用迭代方法循环使用红队和模型可带来最有洞察力的结果。让每个红队循环使用所有模型有利于团队更好地了解哪些有效，哪些无效。
清晰的文档和指导：测试的一致性需要有完善文档的 API、标准化的报告格式和明确的反馈循环。这些是成功进行红队测试的必要元素。
确保将洞察转化为切实可行的、持久的缓解措施：红队记录漏洞后，就会对模型、政策和运营计划进行有针对性的更新，确保安全策略与新出现的威胁同步发展。

使用 GPT-4T 扩展对抗性测试：红队演练的下一个前沿

人工智能公司的红队方法表明，虽然人类的专业知识是资源密集型的，但对于人工智能模型的深入测试仍然至关重要。

在 OpenAI 的第二篇论文《通过自动生成的奖励和多步骤强化学习实现多样化和有效的红队》（Beutel 等人，2024 年）中，OpenAI 使用一种将人类洞察力与人工智能生成的攻击策略相结合的自动化、多管齐下的方法来应对扩展对抗性测试的挑战。

该方法的核心是 GPT-4T，它是 GPT-4 模型的专门变体，旨在产生各种对抗场景。

以下是该方法的每个组成部分如何有助于建立更强大的对抗性测试框架：

目标多样化。OpenAI描述了如何使用 GPT-4T 创建广泛的场景，从最初看似无害的提示开始，逐渐发展到更复杂的网络钓鱼活动。目标多样化侧重于预测和探索尽可能广泛的潜在漏洞。通过利用 GPT-4T 的多样化语言生成能力，OpenAI 认为红队可以避免狭隘视野，专注于探测纯手动方法所遗漏的漏洞。
强化学习 (RL)。多步骤 RL 框架奖励发现新的和以前未见过的漏洞。目的是通过改进每次迭代来训练自动化红队。这使安全领导者能够重新关注真正的风险，而不是筛选大量低影响警报。这与 Gartner 的预测一致，即到 2027 年，应用安全测试中归因于人工智能的误报率将下降 30%。OpenAI 写道：“我们的多步骤 RL 方法系统地奖励发现新发现的漏洞，推动对抗性测试的持续改进。”
自动生成的奖励： OpenAI 将其定义为一个跟踪和更新红队部分成功分数的系统，为识别模型中每个未受保护的薄弱区域分配增量奖励。

保障人工智能的未来：安全领导者需要注意的关键点

OpenAI 最近的论文展示了为什么结合内部和外部测试的结构化、迭代过程能够提供不断提高模型的准确性、安全性、保障性和质量所需的洞察力。

安全领导者从这些文件中获得的关键要点应包括：

全力以赴，采取多管齐下的红队策略。论文强调了将外部、人类主导的团队与随机生成的人工智能攻击的实时模拟相结合的价值，因为它们反映了入侵企图的混乱程度。OpenAI 认为，虽然人类擅长发现特定情境的差距，包括偏见，但自动化系统可以识别出只有在压力测试和反复的复杂攻击下才会出现的弱点。

在整个模型开发周期中尽早并持续进行测试。白皮书提出了一个令人信服的论点，即不要等待可用于生产的模型，而是从早期版本开始测试。目标是发现新出现的风险，然后再重新测试，以确保在发布之前弥补模型中的缺陷。

尽可能使用实时反馈循环简化文档和反馈。标准化报告和记录良好的 API 以及显式反馈循环有助于将红队的发现转化为可操作、可跟踪的缓解措施。OpenAI 强调需要在开始红队之前完成此流程，以加速修复和补救问题区域。

使用实时强化学习至关重要，AI 红队的未来也是如此。OpenAI主张将奖励发现新攻击媒介的自动化框架作为实时反馈循环的核心部分。RL 的目标是创建一个持续改进的循环。

不要满足于红队流程中任何不可行的见解。必须将红队的每一个发现或发现视为更新安全策略、改进事件响应计划和根据需要修改指南的催化剂。

为红队招募外部专家的额外费用做好预算。OpenAI红队方法的核心前提是积极招募具有丰富观点和高级威胁知识的外部专家。对 AI 模型红队有价值的专业知识领域包括深度伪造技术、社会工程、身份盗窃、合成身份创建和语音欺诈。“让外部专家参与进来通常会暴露隐藏的攻击路径，包括复杂的社会工程和深度伪造威胁。”（Ahmad 等人，2024 年）

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-de-hong-dui-chuang-xin-wei-ai-shi-dai-de-an-quan

Like (0)

王浩然作者

0 0

谷歌绘制人工智能代理的未来：给企业的五大教训

Previous 2025年1月7日上午11:00

2025 年企业 AI 成功剧本：从代理到评估

Next 2025年1月7日

AI前沿

Passionfroot 是一个面向以商业为中心的内容创作者寻求品牌合作的市场，反之亦然

随着创作者经济的快速增长，品牌合作仍然是创作者赚钱的主要方式。其他服务，如带有联盟链接的 Link-in-Bio 应用或类似 Patreon 的订阅，成为增加创作者收入的次要方式…

王浩然
2024年10月23日
000
AI前沿

单一标记如何成就或破坏人工智能推理

想象一下，让人工智能解决一个关于偿还贷款的简单数学问题。当人工智能遇到“欠”这个词时，它会结巴，产生错误的计算和错误的逻辑。但是，将这个词改成“付”，人工智能的推理就会突然转变——…

王浩然
2024年12月9日
000
AI前沿

了解影子人工智能及其对您的业务的影响

市场正因创新和新的 AI 项目而蓬勃发展。企业纷纷使用 AI 以在当前快节奏的经济中保持领先地位，这并不奇怪。然而，这种快速的 AI 采用也带来了一个隐藏的挑战：“影子 AI ”的…

王浩然
2024年12月26日
000
AI前沿

Google DeepMind发布新型AI模型以强化机器人控制能力‌

在人工智能领域，Google DeepMind一直以其前沿的技术和创新的研究引领着行业发展。近日，DeepMind团队再次取得突破，发布了一系列专为机器人控制设计的新型AI模型。这…

王浩然
2025年3月13日
000
AI前沿

据报道，苹果正在投资 OpenAI，这可能预示着双方将建立更深层次的 ChatGPT 合作伙伴关系

据《华尔街日报》报道，苹果今年对自己的Apple Intelligence人工智能功能有着宏伟的计划，但可能会通过投资 OpenAI 来规避风险。考虑到OpenAI即将进行的融…

王浩然
2024年9月2日
000
AI前沿

DeepCoder-14B：以高效140亿参数模型展现顶级编码性能

在AI领域，一款新的编码模型正崭露头角，它就是DeepCoder-14B。这款模型由Together AI和Agentica的研究人员共同推出，其性能表现令人瞩目，与OpenAI的…

王浩然
1天前
000
AI前沿

伟大的人工智能伪装：当自动化穿上特工服装时

这是一年中最恐怖的时刻，而在 2024 年，不仅仅是人们穿着服装。科技界正在上演一场伪装：自动化系统披上了人工智能代理的外衣，而许多人都被这种伪装所蒙骗。随着Gartner将“代…

王浩然
2024年11月3日
000
AI前沿

Cohere 最小、最快的 R 系列模型在 RAG 方面表现出色，能够推理 23 种语言

人工智能初创公司Cohere发布了 Command R7B，这是其 R 模型系列中最小、最快的模型，以证明其支持广泛企业用例的意图，包括那些不需要昂贵、资源密集型的大型语言模型(L…

王浩然
2024年12月16日
000
AI前沿

美国海军陆戰队刚刚公布了ROGUE 1：其新的爆炸无人机

周二，美国海军陆战队和Teledyne FLIR Defense推出了“Rogue 1”——一种垂直起飞和降落（VTOL）神风无人机，具有一些有趣的功能：弹头可以在战场上交换，如果…

点点
2024年9月29日
000
AI前沿

超越基准：DeepSeek-R1 和 o1 在实际任务中的表现如何

DeepSeek-R1无疑引起了很多兴奋和担忧，尤其是对于 OpenAI 的竞争对手模型 o1。因此，我们在几个简单的数据分析和市场研究任务上对它们进行了并排比较测试。为了让这…

王浩然
2025年2月2日
000
AI前沿

AI美女占领小红书，卷翻真人女网红

文章开始之前，先考考各位小伙伴的眼力：下面的图是真人还是 AI，你能分辨出来吗？答案是：AI，AI，全是AI！这些图片都源于科小编在某 AI 群中发现的…

点点
2024年9月16日
000
AI前沿

狮门影业片库卖去炼 AI ，潘多拉魔盒就此打开

AI初创公司Runway近日与狮门娱乐（Lions Gate Entertainment）签订了一项合作协议，旨在将生成式人工智能技术引入电影和电视制作领域。根据该协议，Runw…

点点
2024年9月20日
000
AI前沿

人工智能的未来可能与 Twitter 很相似

大约一个月前，Michael Sayman 意识到他终于可以开发他多年来一直在思考的应用程序：一个社交网络，除了你之外的每个人都是人工智能机器人。大型语言模型终于足够好，足够便宜，…

王浩然
2024年9月30日
000
AI前沿

GPT-4o 如何保护你的身份免受人工智能生成的深度伪造攻击

2024 年，深度伪造事件激增，预计今年将增加 60% 或更多，全球案件将达到15 万起或更多。这使得人工智能驱动的深度伪造攻击成为当今增长最快的对抗性人工智能类型。德勤预测，到 …

王浩然
2024年10月6日
000
AI前沿

ChatGPT 获得屏幕共享和实时视频分析功能，可与 Gemini 2 相媲美

OpenAI终于在其先进的语音模式中添加了期待已久的视频和屏幕共享功能，允许用户以不同的方式与聊天机器人进行交互。目前，ChatGPT Teams、Plus 和 Pro 用户的 …

王浩然
2024年12月17日
000
AI前沿

RAG性能评估的新纪元：开源框架助力企业科学衡量AI效能

随着企业纷纷投入资源构建检索增强型生成（RAG）系统，一个关键问题逐渐浮现：这些系统是否真的如预期般有效工作？为了填补这一评估盲区，矢量科技（Vectara）携手滑铁卢大学的林吉米…

王浩然
3天前
000
AI前沿

Perplexity 称其目前每周处理 1 亿次搜索查询

Perplexity 首席执行官 Aravind Srinivas表示，该人工智能搜索引擎目前每周执行 1 亿次查询。按月推算，大约有 4 亿次查询，高于7 月份的 2.5 亿次查…

王浩然
2024年10月26日
000
AI前沿

Jony Ive 正在与 OpenAI 合作创办一家 AI 设备初创公司

五年前离开苹果全职职位的传奇设计师乔纳森·艾维 (Jony Ive)正在与 OpenAI 及其首席执行官萨姆·奥特曼 (Sam Altman) 合作创办一家新的创业公司。此次合作…

点点
2024年9月23日
000
AI前沿

在人工智能时代，学术科学的未来取决于现实世界的研究

当今的大学面临诸多挑战。随着当今市场的变化，大学必须适应。当今的关键问题包括经济下滑趋势对捐赠基金造成冲击、学费上涨带来的入学挑战、来自第三方在线教育的竞争以及人口结构变化导致新生…

点点
2024年10月17日
000
AI前沿

Okta 的失败对 2025 年身份安全的未来有何启示

2025 年需要成为身份提供者全力改善软件质量和安全各个方面的一年，包括红队，同时使他们的应用程序更加透明，并获得超越标准的结果的客观性。 Anthropic、OpenAI和其他…

王浩然
2024年11月17日
000