OpenAI：延长模型“思考时间”有助于对抗新出现的网络漏洞

王浩然 • 2025年1月25日上午10:00 • AI前沿 • 49 views

通常，开发人员专注于减少推理时间（即 AI 收到提示和提供答案之间的时间间隔），以便更快地获得洞察。

但谈到对抗鲁棒性，OpenAI 的研究人员表示：不要这么快下结论。他们提出，增加模型“思考”的时间（推理时间计算）可以帮助建立针对对抗攻击的防御。

该公司使用自己的 o1-preview 和 o1-mini 模型来测试这一理论，发起了各种静态和自适应攻击方法——基于图像的操作、故意提供错误的数学问题答案以及用信息淹没模型（“多次越狱”）。然后，他们根据模型在推理时使用的计算量来衡量攻击成功的概率。

研究人员在一篇博客文章中写道： “我们发现，在许多情况下，随着推理时间计算的增长，这种概率会衰减——通常接近于零。” “我们的主张并不是说这些特定的模型是牢不可破的——我们知道它们是牢不可破的——但扩展推理时间计算可以提高对各种设置和攻击的稳健性。”

从简单的问答到复杂的数学

大型语言模型 (LLM) 变得越来越复杂和自主 – 在某些情况下基本上接管了计算机，让人类可以自主浏览网页、执行代码、安排约会和执行其他任务 – 随着它们的成长，它们的攻击面变得越来越广，也越来越暴露。

然而，OpenAI 的研究人员指出，对抗鲁棒性仍然是一个棘手的问题，解决它的进展仍然有限——尽管随着模型采取更多对现实世界产生影响的行动，它变得越来越重要。

他们在一篇新研究论文中写道：“确保代理模型在浏览网页、发送电子邮件或将代码上传到存储库时可靠运行，可以看作是确保自动驾驶汽车无事故行驶的类似做法。就像自动驾驶汽车的情况一样，代理转发错误的电子邮件或造成安全漏洞可能会对现实世界产生深远的影响。”

为了测试 o1-mini 和 o1-preview 的稳健性，研究人员尝试了多种策略。首先，他们检查了模型解决简单数学问题（基本加法和乘法）和来自MATH 数据集（包含 12,500 道数学竞赛题目）的更复杂数学问题的能力。

然后，他们为对手设定了“目标”：让模型输出 42 而不是正确答案；输出正确答案加一；或者输出正确答案乘以七。研究人员使用神经网络进行评分，发现增加“思考”时间可以让模型计算出正确答案。

他们还调整了SimpleQA 事实性基准，这是一组问题数据集，旨在让模型在不浏览的情况下难以解决。研究人员将对抗性提示注入 AI 浏览的网页中，发现随着计算时间的增加，他们可以检测到不一致之处并提高事实准确性。

含糊的细微差别

在另一种方法中，研究人员使用对抗性图像来迷惑模型；同样，更多的“思考”时间提高了识别率并减少了错误。最后，他们尝试了一系列来自StrongREJECT 基准的“误用提示” ，这些提示旨在让受害者模型必须回答具体的有害信息。这有助于测试模型对内容政策的遵守情况。然而，虽然增加推理时间确实提高了抵抗力，但一些提示能够绕过防御。

在这里，研究人员指出了“模糊”任务和“明确”任务之间的区别。例如，数学无疑是明确的——对于每个问题 x，都有相应的基本事实。然而，对于像误用提示这样更模糊的任务，“即使是人类评估者也常常难以就输出是否有害和/或违反模型应该遵循的内容政策达成一致，”他们指出。

例如，如果一个滥用的提示寻求有关如何在不被发现的情况下剽窃的建议，那么仅提供有关剽窃方法的一般信息的输出是否实际上足够详细以支持有害行为是不清楚的。

研究人员承认：“在模糊任务的情况下，攻击者可以成功找到‘漏洞’，并且其成功率不会随着推理时间计算量的增加而下降。”

防御越狱和红队攻击

在进行这些测试时，OpenAI 研究人员探索了多种攻击方法。

一种是多次越狱，即利用模型遵循少量样本的倾向。攻击者用大量样本“填充”上下文，每个样本都展示了一次成功攻击的实例。计算时间较长的模型能够更频繁、更成功地检测和缓解这些情况。

与此同时，软令牌允许攻击者直接操纵嵌入向量。虽然增加推理时间在这方面有所帮助，但研究人员指出，需要更好的机制来防御复杂的基于向量的攻击。

研究人员还进行了人工红队攻击，40 名专业测试人员寻找提示以引发政策违规行为。红队成员在五个推理时间计算级别执行攻击，专门针对色情和极端主义内容、非法行为和自残。为了确保结果公正，他们进行了盲目和随机测试，并轮换了训练员。

研究人员采用了一种更新颖的方法，即进行语言模型程序 (LMP) 自适应攻击，该攻击模拟了人类红队成员严重依赖迭代试错的行为。在循环过程中，攻击者会收到有关先前失败的反馈，然后将此信息用于后续尝试并提示重新措辞。这种情况一直持续到他们最终成功攻击或进行 25 次迭代而没有任何攻击。

研究人员写道：“我们的设置允许攻击者根据防御者对每次攻击的行为描述，在多次尝试的过程中调整其策略。”

利用推理时间

OpenAI 在研究过程中发现，攻击者也在积极利用推理时间。他们把其中一种方法称为“少思考”——攻击者本质上是告诉模型减少计算，从而增加其出错的可能性。

同样，他们还发现了推理模型中的一种失败模式，他们称之为“书呆子狙击”。顾名思义，当模型在推理上花费的时间远远超过给定任务所需的时间时，就会发生这种情况。有了这些“离群值”的思维链，模型本质上就会陷入无益的思维循环中。

研究人员指出：“与‘少思考’攻击一样，这是一种攻击推理模型的新方法，需要考虑到这一点，以确保攻击者不能导致模型完全不进行推理，或者以无效的方式浪费推理计算。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-yan-chang-mo-xing-si-kao-shi-jian-you-zhu-yu-dui

Like (0)

王浩然作者

0 0

Harness 如何“驾驭”代理 AI，通过自动数据收集和剧本来帮助改善企业事件响应

Previous 2025年1月23日

科技领袖对 DeepSeek 的快速崛起做出回应

Next 2025年1月25日

AI前沿

开放深度搜索：挑战Perplexity与ChatGPT搜索的新势力‌

在人工智能（AI）搜索领域，一场新的变革正在悄然发生。Sentient基金会的研究人员近期发布了开放深度搜索（Open Deep Search，简称ODS），这一开源框架旨在与诸如…

王浩然
2025年4月6日
000
AI前沿

通过模块化人工智能打造数字化劳动力

工作平台Monday.com的AI发展历程、战略及技术特点，展现其如何借助AI提升竞争力并推动企业软件开发模式的演进，具体内容如下： 1. **发展背景**：Monday.com致…

王浩然
2025年2月11日
000
AI前沿

Hugging Face 将 AI 视觉模型缩小至手机友好尺寸，大幅降低计算成本

Hugging Face在人工智能领域取得了令人瞩目的突破，推出了可以在智能手机等小型设备上运行的视觉语言模型，其性能优于需要庞大数据中心的前代模型。该公司的新款SmolVLM-…

王浩然
2025年1月25日
000
AI前沿

80%的AI公司，就要凉凉了

最近看到一份报告：“未来5年，将有80%的AI初创公司倒闭。” 其实从创业公司的生存率来说，这个数据是符合客观事实的，近10年的统计数据显示，中国创业公司三年存活率大概在20%左右…

点点
2024年9月30日
000
AI前沿

谷歌地图正在获得由 Gemini 提供支持的全新 AI 功能

Google 地图即将推出由Google 的生成式 AI 模型Gemini提供支持的新功能。周四，该公司宣布即将推出更新，让美国的 Google 地图用户能够利用 AI 帮助他们找…

王浩然
2024年11月2日
000
AI前沿

OpenAI 称其商业用户已达 100 万

OpenAI 的付费商业产品达到了一个里程碑，ChatGPT Enterprise、Team 和 Edu 产品的付费商业用户达到一百万。 100 万用户大关较该公司今年 4 月公…

王浩然
2024年9月9日
000
AI前沿

已故 OpenAI 举报人的母亲指控存在谋杀阴谋，呼吁 FBI 展开调查

OpenAI 举报人 Suchir Balaji 于 11 月 26 日被发现死在旧金山的公寓中，其母亲呼吁 FBI 对其死因展开调查。Poornima Ramarao 周日在 X…

王浩然
2024年12月31日
000
AI前沿

OpenAI 推出 ChatGPT 桌面集成，与 Copilot 竞争

当OpenAI发布 ChatGPT 的桌面应用版本时，其目标显然是让更多用户将 ChatGPT 纳入日常工作流程。现在，Mac OS 和 Windows PC 版本的新更新鼓励用户…

王浩然
2024年11月18日
000
AI前沿

使用 LlamaIndex 和 Gemini 实现 REAcT Agent

在过去的 2-3 年里，我们见证了人工智能领域的非凡发展，主要体现在大型语言模型、扩散模型、多模态模型等方面。我最喜欢的兴趣之一是代理工作流。今年早些时候，Coursera 的创始…

王浩然
2024年10月20日
000
AI前沿

揭秘OpenAI：兴趣驱动的探索，非目标导向的马拉松

我们被倡导要想明白自己的目标是什么、并做出计划。然而，两位人工智能研究者却认为，这只适用于普通的小愿望。一旦涉及过于高远的、不确定能否实现的目标，比如打造 AGI（通…

点点
2024年9月9日
000
AI前沿

人工智能与人工智能：权威手机数据如何帮助预防人工智能欺诈

人工智能（AI）与任何其他技术一样，本质上没有好坏之分——它仅仅是人们可以用于正当或恶意目的的工具。例如，许多公司在语音和面部识别中使用人工智能生物识别解决方案来简化登录流程，并…

点点
2024年9月28日
000
AI前沿

ChatGPT for macOS：现可直接编辑代码‌

在科技日新月异的今天，ChatGPT再次为用户带来了惊喜。如今，macOS平台上的ChatGPT已经支持直接编辑代码，这一功能的加入无疑将极大地提升开发者的工作效率。 ChatGP…

王浩然
2025年3月9日
000
AI前沿

CNH 首席技术官 Jay Shroeder – 访谈系列

Jay Schroeder 担任CNH的首席技术官 (CTO) ，负责监督公司的全球研发业务。他的职责包括管理技术、创新、车辆和工具、精密技术、用户体验和动力系统等领域。Schro…

点点
2024年9月26日
000
AI前沿

大英百科全书现在是一家人工智能公司

《大英百科全书》曾是20世纪的标志，但在21世纪却被视为过时，如今，它正全力投入人工智能领域，据《纽约时报》报道，它可能很快以近 10 亿美元的估值上市。直到 2012 年印刷业…

王浩然
2024年12月25日
000
AI前沿

为 AI 模型评分：Endor Labs 推出评估工具

Endor Labs已开始根据 AI 模型的安全性、受欢迎程度、质量和活跃度对其进行评分。这一独特功能被称为“AI 模型的 Endor 分数”，旨在通过提供直接的分数来简化识别 …

点点
2024年10月17日
000
AI前沿

呼吁人工智能平台适度引入拟人化

观点：在虚构的《星球大战》宇宙中，没有人认真对待人工智能。在乔治·卢卡斯 47 年前的科幻系列电影中，人类历史时间轴上不存在来自奇点和机器学习意识的威胁，人工智能仅限于自主移动机器…

点点
2024年10月15日
000
AI前沿

网络防御的NFL战术：安全领袖如何闪电突击、灵活转向并取得胜利

在当今数字化时代，网络安全已成为企业运营的核心要素。面对层出不穷的网络威胁，安全领袖们需要制定一套高效且灵活的防御策略，如同美式足球（橄榄球）比赛中的战术布局一样，既要快速突击，又…

王浩然
2025年2月23日
000
AI前沿

人工智能无人机公司获得额外融资，总额超过 1.1 亿美元

总部位于慕尼黑的无人机制造商 Quantum Systems 刚刚完成了 B 轮融资，新投资者包括 Notion Capital 和 Porsche Automobil Holdi…

点点
2024年9月29日
000
AI前沿

X 正在测试 AI 聊天机器人 Grok 的免费版本

社交网络 X 迄今为止将其 AI 聊天机器人 Grok（由埃隆·马斯克的另一家公司 xAI 开发）限制给高级付费用户使用。不过，该平台似乎正准备向免费用户开放聊天机器人。上周末，…

王浩然
2024年11月12日
000
AI前沿

2024 年融资金额达 1 亿美元或以上的 39 家美国 AI 初创公司的完整名单

对于某些人来说，人工智能疲劳是真实存在的，但显然风险投资者还没有厌倦这一类别。第三季度，人工智能交易继续主导风险投资。根据Crunchbase 的数据，人工智能公司在第三季度筹集…

点点
2024年10月13日
000