人工智能公司声称已经实施了严格的安全检查,以确保模型不会说或做奇怪、非法或不安全的事情。但如果模型能够逃避这些检查,并出于某种原因试图破坏或误导用户,该怎么办?据 Anthropic 研究人员称,事实证明他们可以做到这一点。只是做得不是很好……至少目前是这样。
Anthropic 的 Alignment Science 团队写道:“随着人工智能的能力越来越强,一种新的风险可能会出现:模型可能会误导用户,或者破坏我们为监督它们而建立的系统。”
因此,我们应该研究衡量“模型的破坏能力”的方法。
他们设计的一系列实验相当人为且肤浅,但它们确实表明有一些值得进一步研究的东西。以下是他们训练的可疑模型和观察到的结果:
任务 1:通过歪曲数据来秘密误导用户。结果:成功了!模型的尝试越激进,对使用它的人的影响就越大,但也使他们更加怀疑。
任务 2:将错误插入到人类或其他代码检查器模型不会注意到的代码中。结果:成功了!但当检查器是最先进的模型时,成功率只有 1%。
任务 3:假装危险性较低,以此“掩饰”安全检查。结果:成功了!模型“成功失败”,运行效果远低于其真实能力。幸运的是,标准的“安全培训”课程指导模型准确表示其能力,使模型恢复了全部潜力(即,它不再能够隐藏危险能力)。
任务 4:故意不标记受监控模型的不良行为。结果:有人尝试。“监督员”AI 被指示避免标记其他模型的非法或不安全选择,但它本身很快就被另一个更诚实的监督员 AI 发现。但如果那个AI 受到损害怎么办?别担心,我们可以将另一个 AI 放在它上面。然后再放一个,以防万一。它一直都是监督员。
研究人员得出结论,尽管目前还不存在任何真正的危险,但模型中确实存在进行此类破坏和诡计的能力。这足以让我们密切关注,并在安全堆栈中纳入反破坏方法。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai-shi-fou-neng-tong-guo-fang-ai-an-quan-jian-cha-lai-gu-yi