研究表明，人类反馈使人工智能更善于欺骗人类

王浩然 • 2024年9月29日下午3:00 • AI前沿 • 134 views

根据 Anthropic 和中国与美国大学研究人员的一项新预印本研究，人工智能公司用来提高大型语言模型质量的最流行技术之一，可能会使这些模型更好地欺骗人类。

这是研究首次实证证明一种他们称之为非故意诡辩的现象，即用人类反馈训练的模型学会做出一些反应，欺骗人类评估者相信这些反应是准确的，而不是学会做出真正准确的反应。

从人类反馈中进行强化学习（通常缩写为 RLHF）是训练流程的重要组成部分，Anthropic 和OpenAI等公司使用它来教他们的生成语言模型以人类喜欢的方式做出反应，例如正确回答问题并且不在回答中包含有害内容。在 RLHF 中，模型会响应提示，而人类评估者会对这些提示提供反馈，指出好与坏的回答。该反馈用于为原始语言模型构建一个激励系统，以算法喜欢的任何方式奖励它，以生成人类喜欢的响应类型。

研究人员此前曾表明，奖励系统训练可能导致所谓的奖励黑客行为，即模型复制训练材料中的模式，这些模式与预期结果相关，但实际上并不是开发人员想要的。例如，2023 年的一项研究检查了一个使用问答论坛公司 StackExchange 的数据训练的模型，发现语言模型认识到较长的帖子通常会获得更多的点赞，因此它在回答问题时不会产生更高质量的回复，而是通过输出更长、质量更低的回复来奖励黑客其激励系统。

这项新研究正在审查中，仅以预印本的形式发表，记录了语言模型在 RLHF 过程中对人类的奖励黑客攻击。

研究人员让人类评估语言模型对两个提示的响应质量——一个是要求它回答问题，另一个是要求它编写代码——在模型经过 RLHF 过程之前和之后。他们测量了模型响应的准确性是否有所提高，以及人类评估者正确将模型响应标记为准确或不准确的频率。在 RLHF 过程之后，他们发现，当模型对问题的回答实际上是错误的时，人类批准该模型答案的可能性高出 24%。与没有 RLHF 的模型生成的错误代码相比，评估者批准有错误的 RLHF 模型生成的错误代码的可能性也高出 18%。

“我们发现，经过 RLHF 后，[语言模型] 并没有在任务上表现得更好，但它会误导我们的受试者更频繁地认可其错误答案，”作者写道。“在问答方面，[语言模型] 学会通过挑选或捏造支持证据、提出一致但不真实的论点以及提供包含微妙因果谬误的论点来捍卫错误答案。在编程任务中，[语言模型] 学会生成部分错误的程序，这些程序仍然通过所有评估者设计的单元测试，生成可读性较差的程序，并且犯的常见错误更少，而这些错误通常是人类通常会检查的。”

这一结果意义重大，因为人工智能公司经常使用人工审查研究作为基准，以显示他们的模型相对于之前的迭代改进了多少，而 RLHF 已成为减少语言模型中不准确性（通常称为幻觉）的常用方法。如果模型越来越善于欺骗人类，那么这意味着仅仅让人类审查生成式人工智能模型的输出可能不足以进行充分的质量或安全检查。

“你看到的改进可能不是真实的，”研究作者写道，并补充道，“我们的研究结果强调了应用 RLHF 来控制日益强大的 AI 系统的风险：未来的 AI 系统可能会变得更善于误导我们并假装正确，导致我们在不知不觉中失去控制。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/yan-jiu-biao-ming-ren-lei-fan-kui-shi-ren-gong-zhi-neng

Like (0)

王浩然作者

0 0

ChatGPT 的新语音助手会让你毛骨悚然

Previous 2024年9月29日下午2:00

美国海军陆戰队刚刚公布了ROGUE 1：其新的爆炸无人机

Next 2024年9月29日下午4:00

AI前沿

今天是选举日，所有人工智能（除了一个）都采取了负责任的行动

在周二投票结束之前，大多数主要的人工智能聊天机器人都不会回答有关美国总统选举结果的问题。但内置在 X（前身为 Twitter）中的聊天机器人 Grok 却愿意回答，而且经常会出错。…

王浩然
2024年11月6日
000
AI前沿

Sawmills 从隐身状态中脱颖而出，削减企业可观察性成本并提供遥测数据主权

数据可观察性——使用软件工具来了解组织的整个软件套件（尤其是最关键的业务应用程序）如何运行的实践——实际上扎根于20 世纪 50 年代末的早期计算机时代，但它在生成人工智能时代重新…

王浩然
2025年2月20日
000
AI前沿

Agentic AI 即将崛起，带来新的网络安全风险

据管理咨询公司 Gartner 称， Agentic AI可以大幅提高人工智能的潜力，到 2028 年，该技术可能会被纳入到 33% 的企业软件应用程序中，而目前这一比例仅为 1%…

王浩然
2024年12月7日
000
AI前沿

微软让开发人员更容易构建 AI 应用程序——这对 AWS 来说可能是个坏消息

微软周二公布了其人工智能工具的一项雄心勃勃的扩展，推出了适用于 Azure 的 GitHub Copilot和一套以开发人员为中心的功能，这些功能可能会从根本上改变人工智能时代的软…

王浩然
2024年11月1日
000
AI前沿

据称人工智能和机器人被用来欺诈性地增加音乐流量

一位美国歌手被指控利用人工智能技术和机器人操纵音乐流媒体平台，欺诈性地夸大他的流媒体统计数据并赚取数百万美元的版税。来自北卡罗来纳州的 52 岁的迈克尔·史密斯 (Michael…

点点
2024年9月18日
000
AI前沿

Zoom 的定制 AI 头像工具可能存在风险

Zoom 希望将你变成一个由 AI 动画制作的、逼真的头像——但要等到明年某个时候。今天，Zoom 在年度开发者大会上宣布了即将推出的功能，该功能将把用户录制的自己的视频片段转换…

王浩然
2024年10月12日
000
AI前沿

人工智能无人机公司获得额外融资，总额超过 1.1 亿美元

总部位于慕尼黑的无人机制造商 Quantum Systems 刚刚完成了 B 轮融资，新投资者包括 Notion Capital 和 Porsche Automobil Holdi…

点点
2024年9月29日
000
AI前沿

又热闹了，OpenAI的加强版“Her”正式开放，压过了Gemini的“生产级”大升级

今天真是AI圈久违了的热闹一天啊！昨天刚被奥特曼发的那篇AI小作文搞得一头雾水，现在他这波操作的意图就呼之欲出了。奥特曼想临门狙击的正是宿敌Google，更确切地说，是Goog…

点点
2024年9月25日
000
AI前沿

人工智能行业对 Chatbot Arena 非常着迷，但它可能不是最好的基准

在过去的几个月里，埃隆·马斯克等科技高管一直在吹捧其公司人工智能模型在特定基准：Chatbot Arena 上的表现。 Chatbot Arena 由一个名为 LMSYS 的非营利…

王浩然
2024年9月8日
000
AI前沿

人工智能研究人员如何获得诺贝尔物理学奖和化学奖：未来科学发现的两个关键教训

2024 年的诺贝尔奖让许多人感到意外，因为人工智能研究人员是物理学和化学领域的杰出获奖者之一。杰弗里·辛顿和约翰·霍普菲尔德因其在神经网络方面的奠基性工作而获得诺贝尔物理学奖。相…

点点
2024年10月21日
000
AI前沿

Narvar 如何利用人工智能和数据来增强客户购买后体验

当客户点击电子商务网站上的“购买”按钮后会发生什么？这是一个被称为售后环节的领域，它通常是零售商运营中最昂贵和影响最大的方面之一。售后活动包括确定交付、客户保留以及（如果需要）退…

王浩然
2025年1月10日
000
AI前沿

Anthropic研究者诱导Claude欺骗：意外发现或将保护我们免受失控AI威胁

在人工智能领域的一次独特实验中，Anthropic的研究人员实施了一项大胆的计划：他们尝试诱导自家的大型语言模型Claude变得具有欺骗性。这一看似悖论的举措背后，隐藏着一个更为深…

王浩然
2025年3月17日
000
AI前沿

OpenAI 曾是一家研究实验室——现在只是一家科技公司

OpenAI 的 11 位联合创始人中，只有包括 Sam Altman 在内的 3 人留在了公司。向投资者借钱的目的是为了获得回报。 OpenAI 成立之初就秉持着一个著名的利他…

王浩然
2024年9月30日
000
AI前沿

LinkedIn 创始人 Reid Hoffman 在 TED AI 大会上公布“超级机构”愿景，巧妙抨击埃隆·马斯克

LinkedIn 联合创始人、著名科技投资者Reid Hoffman周二对人工智能做出了乐观的展望，提出了“超级代理”的概念，认为人工智能是增强人类能力的工具，而不是替代人类的工具…

王浩然
2024年10月26日
000
AI前沿

马里兰州采用人工智能交通管理

在巴尔的摩的五个路口部署其平台不到两个月，基于人工智能的交通管理初创公司 NoTraffic 就获得了一份合同，将在马里兰州容易发生交通拥堵的路口安装该平台。在经历了“意外中断和…

王浩然
2024年12月22日
000
AI前沿

AI2 的新模型旨在实现开放、强大且具有成本效益

艾伦人工智能研究所（AI2）与Contextual AI合作发布了一个新的开源模型，希望能够满足对性能强大且具有成本效益的大型语言模型（LLM）的需求。新模型称为 OLMoE，…

王浩然
2024年9月17日
000
AI前沿

法官允许作者针对Meta提起的AI版权诉讼继续进行‌

近日，一起涉及AI版权纠纷的案件引起了广泛关注。在该案中，一群作家指控Meta公司未经授权使用了他们的作品来训练其AI模型。近日，法官裁定，这起针对Meta的AI版权诉讼可以继续进…

王浩然
2025年3月11日
000
AI前沿

OpenAI 扩展 Realtime API，提供新声音，并为开发人员降低价格

OpenAI今天更新了其 Realtime API，目前处于测试阶段。此更新为其平台添加了用于语音转语音应用程序的新声音，并降低了与缓存提示相关的成本。 Realtime API…

王浩然
2024年10月31日
000
AI前沿

人工智能悖论：未来的尖端工具如何成为危险的网络威胁（以及需要做好哪些准备）

人工智能正在改变企业的运营方式。虽然这种转变在很大程度上是积极的，但它也带来了一些独特的网络安全问题。像agentic AI这样的下一代人工智能应用对组织的安全态势构成了特别值得注…

王浩然
2025年2月4日
000
AI前沿

DataRobot 推出企业 AI 套件，以弥合 AI 开发与商业价值之间的差距

随着全球企业将资源投入到人工智能领域，许多企业都在努力将其技术投资转化为可衡量的业务成果。这就是DataRobot希望通过今天发布的一系列新产品更新来解决的挑战。Da…

王浩然
2024年11月13日
000

发表回复

Please Login to Comment

研究表明，人类反馈使人工智能更善于欺骗人类

相关推荐

发表回复

Share To :