阿里巴巴研究人员推出具有高级推理能力的法学硕士 Marco-o1

阿里巴巴研究人员推出具有高级推理能力的法学硕士 Marco-o1

OpenAI o1的近期发布引起了人们对大型推理模型 (LRM) 的极大关注,并启发了旨在解决经典语言模型经常遇到的复杂问题的新模型。基于 o1 的成功和 LRM 的概念,阿里巴巴的研究人员推出了Marco-o1,它增强了推理能力,并在缺乏明确标准和可量化奖励的情况下,用开放式解决方案解决问题。

OpenAI o1 使用“推理时间缩放”来提高模型的推理能力,即给模型“思考时间”。基本上,该模型在推理过程中使用更多的计算周期来生成更多的标记并审查其响应,从而提高其在需要推理的任务上的性能。o1 以其令人印象深刻的推理能力而闻名,尤其是在数学、物理和编码等具有标准答案的任务中。 

然而,许多申请涉及开放式问题,缺乏明确的解决方案和可量化的回报。阿里巴巴研究人员写道:“我们的目标是进一步突破法学硕士的界限,增强他们的推理能力,以应对复杂的现实挑战。”

Marco-o1 是阿里巴巴Qwen2-7B-Instruct的微调版本,集成了思路链(CoT) 微调、蒙特卡洛树搜索(MCTS) 和推理行动策略等先进技术。

研究人员在多种数据集上对 Marco-o1 进行了训练,包括Open-O1 CoT 数据集;Marco-o1 CoT 数据集(使用 MCTS 生成的合成数据集);以及 Marco-o1 指令数据集(用于推理任务的自定义指令跟踪数据集合)。

阿里巴巴研究人员推出具有高级推理能力的法学硕士 Marco-o1

MCTS 是一种搜索算法,已被证明在解决复杂问题时非常有效。它通过反复采样各种可能性、模拟结果并逐步构建决策树,智能地探索不同的解决方案路径。它已被证明在解决复杂的人工智能问题(例如赢得围棋比赛)方面非常有效。

Marco-o1 利用 MCTS 在生成响应标记时探索多种推理路径。该模型使用候选响应标记的置信度分数来构建其决策树并探索不同的分支。这使模型能够考虑更广泛的可能性并得出更明智和更细致的结论,尤其是在具有开放式解决方案的场景中。研究人员还引入了一种灵活的推理行动策略,使他们能够通过定义树中每个节点生成的标记数量来调整 MCTS 步骤的粒度。这在准确性和计算成本之间提供了权衡,使用户可以灵活地平衡性能和效率。

Marco-o1 的另一个关键创新是引入了反思机制。在推理过程中,模型会定期用这句话提示自己:“等等!我可能犯了一些错误!我需要从头开始重新思考。”这会导致模型重新评估其推理步骤,识别潜在错误并改进其思维过程。

研究人员写道:“这种方法允许模型充当自己的批评者,识别其推理中的潜在错误。”“通过明确提示模型质疑其初步结论,我们鼓励它重新表达和改进其思维过程。”

为了评估 Marco-o1 的性能,研究人员对多项任务进行了实验,包括 MGSM 基准,这是一个针对多语言小学数学问题的数据集。Marco-o1 的表现明显优于基础 Qwen2-7B 模型,尤其是在 MCTS 组件针对单标记粒度进行调整时。 

阿里巴巴研究人员推出具有高级推理能力的法学硕士 Marco-o1

然而,Marco-o1 的主要目标是解决开放式场景中的推理挑战。为此,研究人员测试了该模型翻译口语和俚语表达,这项任务需要理解语言、文化和语境的细微差别。实验表明,Marco-o1 能够比传统翻译工具更有效地捕捉和翻译这些表达。例如,该模型正确地将中文口语表达“这双鞋有踩到大便的感觉”翻译成英文“这双鞋的鞋底很舒服”。该模型的推理链显示了它如何评估不同的潜在含义并得出正确的翻译。

这种范式对于产品设计和战略等任务非常有用,因为这些任务需要深入的、基于背景的理解,而且没有明确的基准和指标。

阿里巴巴研究人员推出具有高级推理能力的法学硕士 Marco-o1

新一波推理模型

自 o1 发布以来,人工智能实验室竞相发布推理模型。上周,中国人工智能实验室 DeepSeek 发布了其 o1 竞争对手R1-Lite-Preview,目前仅通过该公司的在线聊天界面使用。据报道,R1-Lite-Preview 在几个关键基准测试中胜过 o1。

开源社区也在追赶私有模型市场,发布利用推理时间缩放定律的模型和数据集。阿里巴巴团队在 Hugging Face 上发布了Marco-o1,以及研究人员可以用来训练自己的推理模型的部分推理数据集。另一个最近发布的模型是LLaVA-o1,由来自中国多所大学的研究人员开发,它将推理时间推理范式引入开源视觉语言模型 (VLM)。 

这些模型的发布正值人们对模型缩放定律的未来充满不确定性之际。各种报告表明,训练大型模型的回报正在减少,而且可能会遇到瓶颈。但可以肯定的是,我们才刚刚开始探索推理时间缩放的可能性。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/a-li-ba-ba-yan-jiu-ren-yuan-tui-chu-ju-you-gao-ji-tui-li

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年11月27日
Next 2024年11月28日

相关推荐

发表回复

Please Login to Comment