超越思维链：思维偏好优化如何推进LLMs

点点 • 2024年10月16日下午5:00 • AI前沿 • 102 views

Meta、加州大学伯克利分校和纽约大学的研究人员团队开发出一项突破性的新技术，有望增强人工智能系统处理一般任务的能力。这种方法被称为“思维偏好优化”（TPO），旨在使大型语言模型（LLM）在响应时更加深思熟虑和慎重。

TPO 背后的合作努力汇集了一些人工智能研究领域领先机构的专业知识。

思维偏好优化的机制

TPO 的核心原理是鼓励 AI 模型在得出最终答案之前生成“思考步骤”。这个过程模仿了人类的认知过程，我们通常会在表达我们的回答之前仔细思考问题。

该技术涉及几个关键步骤：

在回答查询之前，模型会被提示生成思考步骤。
创建多个输出，每个输出都有自己的一套思维步骤和最终答案。
评估模型仅评估最终答案，而不是思考步骤本身。
然后根据这些评估通过偏好优化来训练模型。

这种方法与以前的技术（例如思维链 (CoT) 提示）有很大不同。虽然 CoT 主要用于数学和逻辑任务，但 TPO 旨在在各种类型的查询和指令中发挥更广泛的作用。此外，TPO 不需要对思维过程进行明确的监督，从而使模型能够开发自己的有效思维策略。

另一个关键区别是，TPO 克服了包含人类思维过程的训练数据有限的挑战。通过将评估重点放在最终输出而不是中间步骤上，TPO 允许出现更灵活和多样化的思维模式。

实验设置和结果

为了测试 TPO 的有效性，研究人员使用人工智能语言模型领域的两个著名基准进行了实验：AlpacaEval 和 Arena-Hard。这些基准旨在评估人工智能模型在各种任务中的一般指令遵循能力。

实验使用 Llama-3-8B-Instruct 作为种子模型，并采用不同的判断模型进行评估。这种设置使研究人员能够将 TPO 的性能与基线模型进行比较，并评估其对各种类型任务的影响。

这些实验的结果令人鼓舞，显示出几个类别的改进：

推理和解决问题：正如预期的那样，TPO 在需要逻辑思维和分析的任务中表现出进步。
常识：有趣的是，该技术还提高了与广泛事实信息相关的查询的性能。
营销：也许令人惊讶的是，TPO 在与营销和销售相关的任务中表现出了增强的能力。
创造性任务：研究人员指出了创造性写作等领域的潜在益处，表明“思考”有助于规划和构建创造性成果。

这些改进并不局限于传统的推理密集型任务，这表明 TPO 有潜力在广泛的应用中提高 AI 性能。AlpacaEval 和 Arena-Hard 基准测试的胜率与基线模型相比有显著提高，即使与更大的语言模型相比，TPO 也能取得有竞争力的结果。

然而，值得注意的是，TPO 的当前实施显示出一些局限性，特别是在数学任务方面。研究人员观察到，与基线模型相比，数学问题的表现实际上有所下降，这表明可能需要进一步改进以解决特定领域。

对人工智能发展的影响

TPO 在提升各个类别表现方面的成功为 AI 应用开辟了令人兴奋的可能性。除了传统的推理和解决问题任务之外，这项技术还可以增强 AI 在创意写作、语言翻译和内容生成方面的能力。通过让 AI 在生成输出之前“思考”复杂的过程，我们可以在这些领域看到更细致入微、更能感知上下文的结果。

在客户服务方面，TPO 可以让聊天机器人和虚拟助手做出更周到、更全面的响应，从而有可能提高用户满意度并减少人工干预的需求。此外，在数据分析领域，这种方法可能使人工智能在从复杂数据集得出结论之前考虑多个观点和潜在相关性，从而实现更有洞察力和更可靠的分析。

尽管 TPO 取得了令人鼓舞的成果，但目前的形式仍面临一些挑战。数学相关任务的下降表明该技术可能并非在所有领域都普遍有益。这一限制凸显了对 TPO 方法进行特定领域改进的必要性。

另一个重大挑战是计算开销的潜在增加。生成和评估多个思维路径的过程可能会增加处理时间和资源需求，这可能会限制 TPO 在快速响应至关重要的场景中的适用性。

此外，当前的研究侧重于特定的模型大小，这引发了人们对 TPO 能否很好地扩展到更大或更小的语言模型的疑问。此外，还存在“过度思考”的风险——过度“思考”可能会导致对简单任务的响应变得复杂或过于复杂。

平衡思考的深度和手头任务的复杂性将成为未来研究和开发的一个关键领域。

未来方向

未来研究的一个关键领域是开发控制人工智能思维过程长度和深度的方法。这可能涉及动态调整，使模型能够根据手头任务的复杂性调整其思考深度。研究人员还可能探索用户定义的参数，使用户能够为不同的应用程序指定所需的思考水平。

效率优化在这一领域至关重要。开发算法以找到周全考虑和快速响应时间之间的最佳平衡点，可以显著提高 TPO 在各个领域和用例中的实际适用性。

随着 AI 模型的规模和能力不断增长，探索 TPO 如何随模型规模而扩展将至关重要。未来的研究方向可能包括：

在最先进的大型语言模型上测试 TPO，以评估其对更先进的 AI 系统的影响
研究更大的模型是否需要不同的思维生成和评估方法
探索 TPO 缩小小型模型和大型模型之间性能差距的潜力，从而更有效地利用计算资源

这项研究可能会产生更复杂的人工智能系统，可以处理日益复杂的任务，同时保持效率和准确性。

底线

思维偏好优化是增强大型语言模型能力的重要一步。通过鼓励 AI 系统“先想后说”，TPO 已在各种任务中展现出改进，有望彻底改变我们开发 AI 的方式。

随着该领域研究的不断深入，我们可以期待看到该技术得到进一步改进，解决当前的局限性并扩大其应用范围。人工智能的未来很可能涉及不仅处理信息而且还参与更像人类的认知过程的系统，从而产生更细致入微、情境感知能力更强、最终更有用的人工智能。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/chao-yue-si-wei-lian-si-wei-pian-hao-you-hua-ru-he-tui-jin

AI 系统 LLM Meta 人工智能大型语言模型

Like (0)

点点

0 0

Telefónica 的 Wayra 支持人工智能应答引擎 Perplexity

Previous 2024年10月16日

Adobe 如何保护艺术家免受 AI 滥用

Next 2024年10月16日

AI前沿

尽管存在风险，Vinod Khosla 对人工智能仍持乐观态度

维诺德·科斯拉 (Vinod Khosla) 坚信，人类在人工智能的推动下的未来是光明的。这位 Sun Microsystems 联合创始人、现任著名投资者预测，“工作需求将会消…

王浩然
2024年10月29日
000
AI前沿

谷歌新款 Trillium AI 芯片速度提升 4 倍，为 Gemini 2.0 提供支持

谷歌刚刚发布了其第六代人工智能加速器芯片Trillium，声称其性能改进可能会从根本上改变人工智能开发的经济性，同时突破机器学习的极限。这款定制处理器为谷歌新发布的Gemini …

王浩然
2024年12月12日
000
AI前沿

亚马逊与 Anthropic 合作增强 Alexa

亚马逊正准备推出其 Alexa 语音助手的改进版本，预计将于今年 10 月美国购物旺季之前上市。这项新技术在公司内部被称为“Remarkable”，将由 Anthropic 的C…

点点
2024年9月4日
000
AI前沿

ChatGPT 现在可以读取 Mac 上的部分桌面应用程序

OpenAI 的 ChatGPT 开始与您计算机上的其他应用程序协同工作。周四，这家初创公司宣布，适用于 macOS 的 ChatGPT 桌面应用程序现在可以读取一些以开发人员为…

王浩然
2024年11月16日
000
AI前沿

BBC 正在使用 AI 生成字幕

广受欢迎的BBC Sounds音频平台正在通过其网站和应用试用新的 AI 生成字幕，这些字幕可以与节目和完整文本一起播放。为期三个月的试用目前仅限于少数几档节目 – I…

王浩然
2024年9月2日
000
AI前沿

微软如何防御每秒 7000 名密码攻击者

最近采访了微软安全、合规、身份、管理和隐私公司副总裁Vasu Jakkal ，以了解她对人工智能、机器学习 (ML)、生成式人工智能和新兴技术如何重新定义网络安全的见解。 Jakk…

王浩然
2024年12月6日
000
AI前沿

Ai2 发布新语言模型，与 Meta 的 Llama 竞争

目前出现了一个新的 AI 模型家族，它是少数可以从头开始复制的模型之一。周二，已故微软联合创始人保罗·艾伦 (Paul Allen) 创立的非营利性 AI 研究机构 Ai2 发布…

王浩然
2024年11月29日
000
AI前沿

Luma 将 Dream Machine AI 视频模型扩展为完整的创意平台和移动应用程序

初创公司与谷歌、Meta 等大公司在提供引人注目的 AI 视频创作工具方面的竞争已经进入新阶段。 Luma AI是一家由前谷歌员工和其他人员创办的初创公司，该公司正在通过新界面、移…

王浩然
2024年11月27日
000
AI前沿

Nvidia 人工智能人形机器人在拉斯维加斯提供咖啡

Richtech Robotics 公司生产的 Adam 机器人将于周日在 Town Square 的 Clouffee and Tea 开始工作采用 Nvidia AI 技术的…

王浩然
2025年2月18日
000
AI前沿

OpenAI的ChatGPT用户激增至4亿，GPT-5即将面世‌

OpenAI的ChatGPT用户量已突破4亿周活跃用户大关，这一里程碑彰显了公司在消费者和企业市场的快速扩张。根据首席运营官Brad Lightcap周四在X平台上的帖子，Chat…

王浩然
2025年2月22日
000
AI前沿

领导者对负责任的人工智能所需的治理水平存在分歧

领导者对于如何打造负责任的人工智能存在分歧，有两种观点，一种是治理主导，一种是实验优先，而监管机构则在寻找正确的平衡方面面临更大困难。这些见解是在上周的人工智能领袖论坛上…

王浩然
2024年12月10日
000
AI前沿

多式联运 RAG 正在发展，这是开始的最佳方式

随着公司开始尝试多模态检索增强生成 (RAG)，提供多模态嵌入（一种将数据转换为 RAG 可读文件的方法）的公司建议企业在嵌入图像和视频时从小处着手。多模态 RAG 还可以显示…

王浩然
2024年11月11日
000
AI前沿

Snowflake Build：关于 Cortex AI 的 4 大公告及更多内容

在今年的年度BUILD大会上，数据架构巨头 Snowflake 全力以赴为客户提供先进的功能，包括一些长期预览的功能，以便轻松调动他们的数据集来构建和共享强大的 AI 应用程序。 …

王浩然
2024年11月17日
000
AI前沿

人工智能开发中脏数据的高昂成本

众所周知，人工智能开发领域正掀起一股淘金热。根据微软和领英发布的《2024 年工作趋势指数》，超过 40% 的企业领导者预计，他们将在未来几年内利用人工智能 (AI) 彻底重新设计…

点点
2024年11月5日
000
AI前沿

Noma 为企业 AI 解决方案提供从数据存储到部署的安全保障

随着 2024 年接近尾声，企业技术的现状是，各种规模和领域的公司都热衷于利用生成性 AI 应用程序中的数据来改善内部（面向员工）或外部（面向客户/合作伙伴）流程。然而，确保安全…

王浩然
2024年11月3日
000
AI前沿

xpander.ai 的 Agent Graph System 使 AI 代理更加可靠，并逐步为其提供信息

以色列初创公司xpander.ai推出了代理图形系统 (AGS)，据称这是基于 OpenAI 的 GPT-4o 系列等底层 AI 模型构建更可靠、更高效的多步骤 AI 代理的重要新…

王浩然
2024年11月25日
000
AI前沿

需要研究假设吗？问问人工智能。

麻省理工学院的工程师开发了人工智能框架来识别可以推动生物启发材料发展的证据驱动假设。提出独特且有前景的研究假设是任何科学家的基本技能。这也可能很耗时：新博士生可能会在项目的第一年…

王浩然
2025年1月3日
000
AI前沿

沃尔玛和亚马逊利用人工智能推动零售转型

沃尔玛和亚马逊正在利用人工智能推动零售转型，带来全新的消费者体验并提高运营效率。据分析公司GlobalData称，沃尔玛正专注于增强现实和人工智能增强型商店管理。与此同时，亚马逊…

点点
2024年9月17日
000
AI前沿

4800个大模型团队竞逐「产业真题」，这场金融科技大赛火出圈了

今年 7 月，一份《全球数字经济白皮书 (2024)》统计显示，全球目前已有 1300 多个基础大模型，美国的数量最多，中国紧随其后排在第二。这一数字对比说明，在大模…

点点
2024年9月7日
000
AI前沿

AI悄然高筑了人与人之间的“柏林墙”

“参加了四五次面试，连真人面试官的影子还都没看到”，一位参加秋招的应届生源源向AI鲸选社吐槽到。她八月底开始准备秋招，看了无数攻略，准备了半个月的简历投出去，却只收到了几家公司的…

点点
2024年10月7日
000