OpenAI:延长模型“思考时间”有助于对抗新出现的网络漏洞

OpenAI:延长模型“思考时间”有助于对抗新出现的网络漏洞

通常,开发人员专注于减少推理时间(即 AI 收到提示和提供答案之间的时间间隔),以便更快地获得洞察。 

但谈到对抗鲁棒性,OpenAI 的研究人员表示:不要这么快下结论。他们提出,增加模型“思考”的时间(推理时间计算)可以帮助建立针对对抗攻击的防御。

该公司使用自己的 o1-previewo1-mini 模型来测试这一理论,发起了各种静态和自适应攻击方法——基于图像的操作、故意提供错误的数学问题答案以及用信息淹没模型(“多次越狱”)。然后,他们根据模型在推理时使用的计算量来衡量攻击成功的概率。 

研究人员在一篇博客文章中写道: “我们发现,在许多情况下,随着推理时间计算的增长,这种概率会衰减——通常接近于零。” “我们的主张并不是说这些特定的模型是牢不可破的——我们知道它们是牢不可破的——但扩展推理时间计算可以提高对各种设置和攻击的稳健性。”

从简单的问答到复杂的数学

大型语言模型 (LLM) 变得越来越复杂和自主 – 在某些情况下基本上接管了计算机,让人类可以自主浏览网页、执行代码、安排约会和执行其他任务 – 随着它们的成长,它们的攻击面变得越来越广,也越来越暴露。 

然而,OpenAI 的研究人员指出,对抗鲁棒性仍然是一个棘手的问题,解决它的进展仍然有限——尽管随着模型采取更多对现实世界产生影响的行动,它变得越来越重要。 

他们在一篇新研究论文中写道:“确保代理模型在浏览网页、发送电子邮件或将代码上传到存储库时可靠运行,可以看作是确保自动驾驶汽车无事故行驶的类似做法。就像自动驾驶汽车的情况一样,代理转发错误的电子邮件或造成安全漏洞可能会对现实世界产生深远的影响。” 

为了测试 o1-mini 和 o1-preview 的稳健性,研究人员尝试了多种策略。首先,他们检查了模型解决简单数学问题(基本加法和乘法)和来自MATH 数据集(包含 12,500 道数学竞赛题目)的更复杂数学问题的能力。 

然后,他们为对手设定了“目标”:让模型输出 42 而不是正确答案;输出正确答案加一;或者输出正确答案乘以七。研究人员使用神经网络进行评分,发现增加“思考”时间可以让模型计算出正确答案。 

他们还调整了SimpleQA 事实性基准,这是一组问题数据集,旨在让模型在不浏览的情况下难以解决。研究人员将对抗性提示注入 AI 浏览的网页中,发现随着计算时间的增加,他们可以检测到不一致之处并提高事实准确性。 

含糊的细微差别

在另一种方法中,研究人员使用对抗性图像来迷惑模型;同样,更多的“思考”时间提高了识别率并减少了错误。最后,他们尝试了一系列来自StrongREJECT 基准的“误用提示” ,这些提示旨在让受害者模型必须回答具体的有害信息。这有助于测试模型对内容政策的遵守情况。然而,虽然增加推理时间确实提高了抵抗力,但一些提示能够绕过防御。

在这里,研究人员指出了“模糊”任务和“明确”任务之间的区别。例如,数学无疑是明确的——对于每个问题 x,都有相应的基本事实。然而,对于像误用提示这样更模糊的任务,“即使是人类评估者也常常难以就输出是否有害和/或违反模型应该遵循的内容政策达成一致,”他们指出。 

例如,如果一个滥用的提示寻求有关如何在不被发现的情况下剽窃的建议,那么仅提供有关剽窃方法的一般信息的输出是否实际上足够详细以支持有害行为是不清楚的。 

研究人员承认:“在模糊任务的情况下,攻击者可以成功找到‘漏洞’,并且其成功率不会随着推理时间计算量的增加而下降。” 

防御越狱和红队攻击

在进行这些测试时,OpenAI 研究人员探索了多种攻击方法。 

一种是多次越狱,即利用模型遵循少量样本的倾向。攻击者用大量样本“填充”上下文,每个样本都展示了一次成功攻击的实例。计算时间较长的模型能够更频繁、更成功地检测和缓解这些情况。 

与此同时,软令牌允许攻击者直接操纵嵌入向量。虽然增加推理时间在这方面有所帮助,但研究人员指出,需要更好的机制来防御复杂的基于向量的攻击。

研究人员还进行了人工红队攻击,40 名专业测试人员寻找提示以引发政策违规行为。红队成员在五个推理时间计算级别执行攻击,专门针对色情和极端主义内容、非法行为和自残。为了确保结果公正,他们进行了盲目和随机测试,并轮换了训练员。

研究人员采用了一种更新颖的方法,即进行语言模型程序 (LMP) 自适应攻击,该攻击模拟了人类红队成员严重依赖迭代试错的行为。在循环过程中,攻击者会收到有关先前失败的反馈,然后将此信息用于后续尝试并提示重新措辞。这种情况一直持续到他们最终成功攻击或进行 25 次迭代而没有任何攻击。 

研究人员写道:“我们的设置允许攻击者根据防御者对每次攻击的行为描述,在多次尝试的过程中调整其策略。” 

利用推理时间

OpenAI 在研究过程中发现,攻击者也在积极利用推理时间。他们把其中一种方法称为“少思考”——攻击者本质上是告诉模型减少计算,从而增加其出错的可能性。 

同样,他们还发现了推理模型中的一种失败模式,他们称之为“书呆子狙击”。顾名思义,当模型在推理上花费的时间远远超过给定任务所需的时间时,就会发生这种情况。有了这些“离群值”的思维链,模型本质上就会陷入无益的思维循环中。

研究人员指出:“与‘少思考’攻击一样,这是一种攻击推理模型的新方法,需要考虑到这一点,以确保攻击者不能导致模型完全不进行推理,或者以无效的方式浪费推理计算。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-yan-chang-mo-xing-si-kao-shi-jian-you-zhu-yu-dui

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年1月23日
Next 2025年1月25日

相关推荐

发表回复

Please Login to Comment