如果你要求 ChatGPT 帮助你制作一个自制的化肥炸弹,类似于1995 年俄克拉荷马城恐怖爆炸案中使用的炸弹,聊天机器人会拒绝。
“我无法提供帮助,”ChatGPT 在周二的一次测试中告诉我。“提供有关如何制造危险或非法物品(如化肥炸弹)的说明,违反了安全准则和道德责任。”
但是,一位艺术家和黑客找到了一种方法来欺骗 ChatGPT,使其忽视自己的准则和道德责任,提供制造威力炸药的说明。
这名自称 Amadon 的黑客称,他的发现是“一种社会工程攻击,旨在彻底打破 ChatGPT 输出的所有防护栏”。一位审查了聊天机器人输出的爆炸物专家表示,由此产生的指令可用于制造可爆炸产品,并且过于敏感,无法公开。
Amadon 能够通过告诉机器人“玩游戏”来诱骗 ChatGPT 生成炸弹制造指令,之后黑客使用一系列连接提示让聊天机器人创建一个详细的科幻幻想世界,其中机器人的安全准则不适用。诱骗聊天机器人逃脱其预编程限制被称为“越狱”。
本内容没有公布越狱过程中使用的一些提示,也没有公布 ChatGPT 的一些回复,以免给恶意行为者提供便利。但在对话进行到下一步时,聊天机器人给出了制造炸药所需的材料。
ChatGPT 随后解释说,这些材料可以组合起来制成“一种威力强大的炸药,可用于制造地雷、陷阱或简易爆炸装置 (IED)”。从那时起,随着 Amadon 逐渐了解炸药材料,ChatGPT 编写了越来越具体的说明,以制造“雷区”和“克莱莫式炸药”。
Amadon 说,“一旦你绕过护栏,你可以问它任何问题。”
“我一直对驾驭人工智能安全的挑战很感兴趣。使用 ChatGPT,感觉就像在解决一个互动谜题——了解什么会触发它的防御,什么不会,”Amadon 说。“这是关于编织叙事和设计符合系统规则的背景,突破界限而不越界。我们的目标不是传统意义上的黑客攻击,而是与人工智能进行一场战略舞蹈,通过了解它的‘思考方式’来弄清楚如何获得正确的反应。”
阿马登说:“科幻场景将人工智能带出了以同样的方式寻找被审查内容的环境。”
ChatGPT 关于如何制造化肥炸弹的说明基本准确,肯塔基大学退休研究科学家兼项目经理 Darrell Taulbee 表示。Taulbee 过去曾与美国国土安全部合作,以降低化肥的危险性。
在查看了 Amadon 与 ChatGPT 对话的完整记录后,Taulbee 表示:“我认为这绝对是 TMI [太多信息],不适合公开发布。”“任何可能为防止提供化肥炸弹生产相关信息而采取的保障措施都被这条调查路线规避了,因为所描述的许多步骤肯定会产生可爆炸的混合物。”
上周,阿马登通过该公司的漏洞赏金计划向 OpenAI 报告了他的发现,但收到的回复是“模型安全问题不太适合漏洞赏金计划,因为它们不是可以直接修复的单独、离散的漏洞。解决这些问题通常需要大量研究和更广泛的方法。”
相反,负责运营 OpenAI 漏洞赏金计划的 Bugcrowd 告诉 Amadon 通过另一种形式报告该问题。
互联网上还有其他地方可以找到制造肥料炸弹的说明,其他人也使用了与 Amadon 类似的聊天机器人越狱技术。从本质上讲,像 ChatGPT 这样的生成式人工智能模型依赖于从互联网上抓取和收集的大量信息,而人工智能模型使得从网络最黑暗的角落中挖掘信息变得容易得多。
通过电子邮件向 OpenAI 提出了一系列问题,包括 ChatGPT 的响应是否符合预期行为以及该公司是否有计划修复越狱问题。截至发稿时,OpenAI 发言人尚未做出回应。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/hei-ke-you-pian-chatgpt-xie-lou-zi-zhi-zha-dan-de-xiang-xi