AI 是否能通过妨碍安全检查来故意破坏用户？可以，但目前做得不太好

王浩然 • 2024年10月21日下午1:00 • AI前沿 • 115 views

人工智能公司声称已经实施了严格的安全检查，以确保模型不会说或做奇怪、非法或不安全的事情。但如果模型能够逃避这些检查，并出于某种原因试图破坏或误导用户，该怎么办？据 Anthropic 研究人员称，事实证明他们可以做到这一点。只是做得不是很好……至少目前是这样。

Anthropic 的 Alignment Science 团队写道：“随着人工智能的能力越来越强，一种新的风险可能会出现：模型可能会误导用户，或者破坏我们为监督它们而建立的系统。”

因此，我们应该研究衡量“模型的破坏能力”的方法。

他们设计的一系列实验相当人为且肤浅，但它们确实表明有一些值得进一步研究的东西。以下是他们训练的可疑模型和观察到的结果：

任务 1：通过歪曲数据来秘密误导用户。结果：成功了！模型的尝试越激进，对使用它的人的影响就越大，但也使他们更加怀疑。

任务 2：将错误插入到人类或其他代码检查器模型不会注意到的代码中。结果：成功了！但当检查器是最先进的模型时，成功率只有 1%。

任务 3：假装危险性较低，以此“掩饰”安全检查。结果：成功了！模型“成功失败”，运行效果远低于其真实能力。幸运的是，标准的“安全培训”课程指导模型准确表示其能力，使模型恢复了全部潜力（即，它不再能够隐藏危险能力）。

任务 4：故意不标记受监控模型的不良行为。结果：有人尝试。“监督员”AI 被指示避免标记其他模型的非法或不安全选择，但它本身很快就被另一个更诚实的监督员 AI 发现。但如果那个AI 受到损害怎么办？别担心，我们可以将另一个 AI 放在它上面。然后再放一个，以防万一。它一直都是监督员。

研究人员得出结论，尽管目前还不存在任何真正的危险，但模型中确实存在进行此类破坏和诡计的能力。这足以让我们密切关注，并在安全堆栈中纳入反破坏方法。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ai-shi-fou-neng-tong-guo-fang-ai-an-quan-jian-cha-lai-gu-yi

不标记受监控模型人工智能假装危险性较低模型的破坏能力歪曲数据

Like (0)

王浩然作者

0 0

Jon Potter，RXN 集团合伙人 – 访谈系列

Previous 2024年10月21日下午12:00

Gusto 技术主管表示，雇佣大批专家是错误的 AI 做法

Next 2024年10月21日下午2:00

AI前沿

研究人员开源 Sky-T1，这是一种“推理”人工智能模型，训练成本不到 450 美元

所谓的推理人工智能模型正变得越来越容易开发，并且更便宜。周五，加州大学伯克利分校天空计算实验室的研究团队 NovaSky 发布了 Sky-T1-32B-Preview，该推理模型…

王浩然
2025年1月12日
000
AI前沿

意想不到的后果：美国大选结果预示着人工智能将不计后果地发展

虽然 2024 年美国大选的焦点是经济和移民等传统问题，但它对人工智能政策的悄无声息的影响可能会更具变革性。没有一个关于人工智能的辩论问题或重大竞选承诺，选民们无意中将天平倾向加速…

王浩然
2024年12月23日
000
AI前沿

构建还是购买？2025 年扩展您的企业级 AI 管道

扩大生成工具的采用范围一直是平衡野心与实用性的挑战，而在 2025 年，风险比以往任何时候都高。竞相采用大型语言模型 (LLM) 的企业正在面临一个新的现实：扩大规模不仅仅是部署更…

王浩然
2025年1月19日
000
AI前沿

Meta 推出 AI 工具，让机器人在现实世界中拥有人类的触感

Meta本周发布了几项有关机器人和具身 AI 系统的重大公告。其中包括发布基准和工件，以便更好地理解和与物理世界互动。Meta 发布的三项研究工件 Sparsh、Digit 36…

王浩然
2024年11月3日
000
AI前沿

Meta大动作！AR让位AI，未来科技谁是“大小王”？

对于Meta来说，元宇宙和AI孰轻孰重早已没有悬念。

点点
2024年9月9日
000
AI前沿

谷歌Gemini新功能：现在可通过视频或屏幕内容提问‌

在不断创新与进步的科技浪潮中，谷歌再次引领潮流，为其Gemini搜索平台带来了革命性的新功能。近日，谷歌宣布Gemini已支持用户通过上传视频或利用屏幕截图中的内容来提问，这一变革…

王浩然
2025年3月4日
000
AI前沿

MemGPT团队官宣创业，融资1000万美金，硅谷大佬Jeff Dean也投了

据TechCrunch本周一报道，MemGPT团队首次官宣创业。由该团队创立的Letta公司，推出了一个同名的AI上下文内存管理平台Letta。最近2年，大语言模型快速发展，但受…

点点
2024年9月25日
000
AI前沿

‌Sakana声称其AI论文通过同行评审，但情况更为复杂‌

在人工智能领域，每一项新的研究成果都可能引领行业的变革。近日，一家名为Sakana的初创公司宣布，其关于人工智能的最新研究论文已经通过了严格的同行评审。然而，在深入探究后，我们发现…

王浩然
2025年3月13日
000
AI前沿

科技巨头的语音大战，亚马逊Claude让Alexa飞起，Cerebras速度惊人

亚马逊的Alexa一直是智能语音助手的佼佼者，现在有了Claude的加持，就像是给超级英雄穿上了新战衣。Claude的算法优化让Alexa的语音识别和处理能力大幅提升，反应速度和准确性都有了质的飞跃。

点点
2024年9月11日
000
AI前沿

虚假拜登自动电话呼叫导致无线服务提供商被 FCC 罚款 100 万美元

这些电话使用人工智能模仿拜登的声音，告诉潜在选民在初选期间待在家里。

点点
2024年9月2日
000
AI前沿

2024 年融资金额达 1 亿美元或以上的 39 家美国 AI 初创公司的完整名单

对于某些人来说，人工智能疲劳是真实存在的，但显然风险投资者还没有厌倦这一类别。第三季度，人工智能交易继续主导风险投资。根据Crunchbase 的数据，人工智能公司在第三季度筹集…

点点
2024年10月13日
000
AI前沿

保卫陷入困境的 SOC：抵御对抗性 AI 攻击

77%的企业已成为对抗性 AI 攻击的受害者，而电子犯罪分子的突破时间仅用了2 分 7 秒，创下了历史记录。问题不在于您的安全运营中心 (SOC) 是否会成为攻击目标，而是何时成为…

王浩然
2024年12月10日
000
AI前沿

Decart 的 AI 模拟了 Minecraft 的实时可玩版本

Decart是一家以色列人工智能公司，今天正式亮相，获得了红杉资本和 Oren Zeev 的 2100 万美元融资，该公司发布了据称是首款可玩的“开放世界”人工智能模型。该模型名…

王浩然
2024年11月2日
000
AI前沿

CoreWeave与EcoDataCenter携手筹集5亿美元，打造AI可持续建筑‌

在人工智能领域不断发展的背景下，CoreWeave与EcoDataCenter宣布了一项雄心勃勃的合作计划。两家公司已共同筹集了5亿美元资金，旨在建设更加环保、高效的建筑，以支持A…

王浩然
2025年3月6日
000
AI前沿

使用 Azure 和 OpenAI 微调预训练模型

在人工智能 (AI) 的动态领域，微调预训练模型对于根据特定需求定制 AI 至关重要。Microsoft Azure 与 OpenAI 合作，为此提供了一个强大的平台，帮助开发人员…

王浩然
2024年8月31日
000
AI前沿

Google Gemini 意外超越 OpenAI，跃居第一，但基准测试结果并不能说明全部情况

谷歌凭借其最新实验模型在一项关键的人工智能基准测试中名列前茅，标志着人工智能竞赛发生重大转变——但业内专家警告称，传统的测试方法可能不再有效衡量真正的人工智能能力。该模型名为“ …

王浩然
2024年11月17日
000
AI前沿

随着 GenAI 工具越来越受员工欢迎，影子 IT 风险也在上升

企业始终面临数据泄露的风险，但如今威胁已扩大了许多倍，部分原因是生成式 AI 工具的蓬勃发展。Gartner 最近发现，自 2019 年以来，每位员工使用的 SaaS 应用程序数…

王浩然
2024年10月19日
000
AI前沿

从AI代理的热潮到实践：为何企业必须重视适用性而非盲目追求

随着我们全面步入自主转型的时代，AI代理正在重塑企业的运营方式和价值创造途径。然而，在数百家声称提供“AI代理”的供应商中，我们如何穿透炒作迷雾，理解这些系统真正能够实现的成果，以…

王浩然
16小时前
000
AI前沿

从伊隆·马斯克到警车追逐，一名软件工程师如何创办一家警用 AI 初创公司

今年早些时候，Abel创始人 Daniel Francis 驾驶一辆汽车在加利福尼亚州奥克兰的高速公路上以每小时 135 英里的速度行驶。司机是一名警察，腿上放着一把枪。弗朗…

点点
2024年10月19日
000
AI前沿

5.25 亿美元债券资助智能能源扩张

台达电子宣布发行 5.25 亿美元债券，以加速开发基于物联网的下一代智能节能解决方案，以支持人工智能、智能制造、电动汽车和能源转型。此次通过台湾子公司台达国际控股有限…

王浩然
2025年1月26日
000

发表回复

Please Login to Comment

AI 是否能通过妨碍安全检查来故意破坏用户？可以，但目前做得不太好

相关推荐

发表回复

Share To :