中国研究人员推出 LLaVA-o1，挑战 OpenAI 的 o1 模型

王浩然 • 2024年11月26日下午7:00 • AI前沿 • 85 views

OpenAI的 o1 模型表明，推理时间扩展（在推理过程中使用更多计算）可以显著提升语言模型的推理能力。LLaVA -o1是由中国多所大学的研究人员开发的新模型，它将这一范式引入了开源视觉语言模型 (VLM)。

早期开源 VLM 通常使用直接预测方法，无需推理提示和解决提示所需的步骤即可生成答案。如果没有结构化的推理过程，它们在需要逻辑推理的任务中效率会降低。诸如思路链(CoT) 提示之类的高级提示技术（鼓励模型生成中间推理步骤）可以带来一些边际改进。但 VLM 经常会产生错误或产生幻觉。

研究人员发现，一个关键问题是现有 VLM 中的推理过程不够系统化和结构化。这些模型不会生成推理链，并且经常陷入推理过程中，不知道自己处于哪个阶段，也不知道必须解决什么具体问题。

研究人员写道：“我们观察到，VLM 经常在没有充分组织问题和可用信息的情况下发起响应。此外，它们经常偏离逻辑推理而得出结论，而不是过早得出结论，然后试图证明它。鉴于语言模型逐个标记生成响应，一旦引入错误的结论，该模型通常会继续沿着有缺陷的推理路径前进。”

多阶段推理

OpenAI o1使用推理时间缩放来解决系统性和结构化的推理问题，并允许模型在逐步解决问题时暂停并查看其结果。虽然 OpenAI 尚未公布有关 o1 底层机制的太多细节，但其结果为提高基础模型的推理能力指明了方向。

受 o1 的启发，研究人员设计了 LLaVA-o1 来进行分阶段推理。LLaVA-o1 不会生成直接的推理链，而是将推理过程分为四个不同的阶段：

摘要：模型首先对问题进行高层概括，概述需要解决的核心问题。

标题： 如果存在图像，模型会描述相关部分，重点关注与问题相关的元素。

推理： 在总结的基础上，模型进行结构化、逻辑化的推理，得出初步答案。

结论：最后，模型根据前面的推理，对答案进行简洁的总结。

只有结论阶段对用户可见；其他三个阶段代表模型的内部推理过程，类似于 o1 的隐藏推理轨迹。这种结构化方法使 LLaVA-o1 能够独立管理其推理过程，从而提高复杂任务的性能。

研究人员写道：“这种结构化方法使模型能够独立管理其推理过程，提高其在复杂推理任务中的适应性和性能。”

LLaVA-o1 还引入了一种名为“阶段级束搜索”的新型推理时间扩展技术。阶段级束搜索在每个推理阶段生成多个候选输出。然后，它会在每个阶段选择最佳候选以继续生成过程。这与经典的 Best-of-N 方法形成对比，在该方法中，模型被提示生成多个完整的响应，然后再选择一个。

研究人员写道：“值得注意的是，LLaVA-o1 的结构化输出设计使这种方法变得可行，从而能够在每个阶段进行高效、准确的验证。这验证了结构化输出在改善推理时间扩展方面的有效性。”

训练 LLaVA-o1

为了训练 LLaVA-o1，研究人员编制了一个新数据集，其中包含从几个广泛使用的 VQA 数据集中获得的约 100,000 个图像-问题-答案对。该数据集涵盖各种任务，从多轮问答到图表解释和几何推理。

研究人员使用GPT-4o为每个示例生成详细的四阶段推理过程，包括摘要、标题、推理和结论阶段。

研究人员随后在此数据集上对Llama-3.2-11B-Vision-Instruct进行了微调，以获得最终的 LLaVA-o1 模型。研究人员尚未发布该模型，但计划发布数据集，称为 LLaVA-o1-100k。

LLaVA-o1 实际运行

研究人员在多个多模态推理基准上对 LLaVA-o1 进行了评估。尽管仅基于 100,000 个示例进行训练，但 LLaVA-o1 的性能比基础 Llama 模型有显著提升，平均基准得分提高了 6.9%。

此外，阶段级波束搜索带来了额外的性能提升，证明了推理时间扩展的有效性。由于计算资源限制，研究人员只能使用 2 的波束大小来测试该技术。他们预计，随着波束大小的增大，改进效果会更大。

令人印象深刻的是，LLaVA-o1 不仅优于其他同等或更大的开源模型，而且还优于GPT-4-o-mini和Gemini 1.5 Pro等一些闭源模型。

研究人员写道：“LLaVA-o1 为 VLM 中的多模态推理建立了新标准，提供了强大的性能和可扩展性，尤其是在推理时间方面。”“我们的工作为未来 VLM 中的结构化推理研究铺平了道路，包括使用外部验证器进行潜在扩展以及使用强化学习来进一步增强复杂的多模态推理能力。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/zhong-guo-yan-jiu-ren-yuan-tui-chu-llavao1-tiao-zhan-openai

Like (0)

王浩然作者

0 0

亚马逊加倍押注 Anthropic，将自己定位为人工智能军备竞赛的关键参与者

Previous 2024年11月26日

AI2 缩小了闭源和开源后训练之间的差距

Next 2024年11月26日

AI前沿

德勤调查：企业对生成式人工智能持谨慎乐观态度

一项新调查发现，一年前，企业对生成式人工智能的前景充满热情，但随着它们面临将人工智能的可能性转化为成果的复杂性，这种热情已逐渐消退，转而变得乐观起来。德勤第四份《企业生成人工智能…

王浩然
2025年1月26日
000
AI前沿

NVIDIA助力推出AI平台，教授美国手语

NVIDIA携手合作伙伴，共同推出了一款创新的AI平台，旨在通过人工智能技术教授美国手语。该平台集成了先进的深度学习算法和高效的图形处理能力，为用户提供了一种直观、互动的学习方式，…

王浩然
2025年2月23日
000
AI前沿

Workday 收购人工智能文档平台 Evisort

Workday周二宣布，将收购人工智能合同管理平台Evisort ，收购金额未公开。 Workday集团总经理 Terrance Wampler 在一份声明中表示，Evisort …

王浩然
2024年9月19日
000
AI前沿

Chipotle 投资人工智能来增强食品安全

Lumachain 的 AI 供应链平台可实时监控供应链中的每个项目

点点
2024年10月22日
000
AI前沿

幻影数据中心：它们是什么（或不是什么）以及它们为何阻碍人工智能的真正前景

在人工智能时代，公共事业单位正面临一个意想不到的新问题：幻影数据中心。从表面上看，这似乎很荒谬：为什么（以及如何）有人会制造像数据中心这样复杂的东西？但随着人工智能需求以及对更多计…

王浩然
2025年1月6日
000
AI前沿

前谷歌CEO泄露AI高级机密，英伟达将引爆“抢购潮”

上个周末，前谷歌CEO 埃里克·施密特在斯坦福大学进行了一场关于如果更智能的重要讲座，在不知道全程直播的情况下泄露了“AI行业的高级机密”，其中就包括了英伟达接下来的重磅利好消息。…

点点
2024年8月21日
000
AI前沿

联想泄露消息称，更便宜的 Copilot Plus 电脑将于本月上市

联想似乎已准备好推出价格更实惠的新款 Copilot Plus 电脑。可靠泄密者 Evan Blass发布了联想的一份新闻稿，详细介绍了将于本周晚些时候在 IFA 贸易展上发布的多…

王浩然
2024年9月3日
000
AI前沿

超级碗 LIX 网络安全策略：NFL 的 CISO 如何应对 AI 威胁和数字攻击

保护超级碗 LIX 和所有备受瞩目的国家橄榄球联盟 (NFL) 赛事免受可能包括武器化 AI、端点攻击、深度伪造和精细的社会工程技能在内的对抗性攻击，需要经验丰富、久经考验的能力和…

王浩然
2025年1月30日
000
AI前沿

Cloudflare 的新市场将允许网站向 AI 机器人收取抓取费用

Cloudflare周一宣布计划在明年推出一个市场，网站所有者可以向 AI 模型提供商出售抓取其网站内容的权限。该市场是 Cloudflare 首席执行官 Matthew Prin…

王浩然
2024年9月24日
000
AI前沿

为什么硅谷在人工智能方面无法“快速行动并打破常规”

人们说，硅谷已经成熟，不再有“快速行动，打破常规，然后再修复”的急躁思维，而且公司已经采取了一种更慢、更负责任的方式来构建我们行业的未来。不幸的是，当前的趋势却讲述了不同的故事。…

点点
2024年9月18日
000
AI前沿

新研究显示，ChatGPT 搜索可能会被欺骗并误导用户

英国《卫报》发现，本月上线的人工智能搜索引擎 ChatGPT Search可能会被欺骗而生成完全误导性的摘要。 ChatGPT 的搜索功能旨在通过总结网页的产品评论等方式加快浏览速…

王浩然
2024年12月27日
000
AI前沿

Together AI 3.05亿美元赌注：DeepSeek-R1等推理模型正在增加而非减少GPU需求‌重写并翻译后的内容

DeepSeek-R1刚出现时，业界普遍担忧先进推理能力的实现可能会减少对基础设施的需求。然而，事实证明情况并非如此。至少，根据Together AI的说法，DeepSeek和开源…

王浩然
2025年2月22日
000
AI前沿

扩展 AI：平台最佳实践

企业现在投入大量资金来构建和不断发展世界一流的企业平台，使 AI 用例能够随着时间的推移而构建、部署、扩展和发展。许多公司历来都采用联合方式构建平台，以构建功能和特性来支持其业务各…

王浩然
2024年12月12日
000
AI前沿

Chain of Experts（COE）：低成本高效能的大型语言模型框架

引言在人工智能（AI）领域，大型语言模型（LLM）的应用日益广泛，但高昂的成本和复杂的部署流程一直是阻碍其普及的关键因素。近日，一种名为Chain of Experts（COE）…

王浩然
2025年3月19日
000
AI前沿

Thesys 融资 400 万美元，利用自适应“生成式 UI”改造 AI 驱动的用户界面

在充斥着旨在增强用户体验的人工智能代理的技术领域，Thesys 的使命是重新定义用户与人工智能的互动方式。在由Together Fund领投的新一轮 400 万美元种子融资以及8V…

王浩然
2024年11月10日
000
AI前沿

Cerebras 与 Nvidia：新的推理工具有望实现更高的性能2

人工智能硬件初创公司Cerebras创建了一种新的人工智能推理解决方案，可能与 Nvidia 为企业提供的 GPU 产品相媲美。 Cerebras Inference 工具基于该公…

36氪
2024年8月31日
000
AI前沿

企鹅兰登书屋保护其书籍免受人工智能训练的影响

企鹅兰登书屋（PRH）针对人们对使用知识产权训练人工智能系统日益增长的担忧采取了重要举措。出版商在新书和重印书的版权页上添加了一条新声明，指出“不得以任何方式使用或复制本书的任何…

点点
2024年10月24日
000
AI前沿

开源AI辩论：为什么选择性透明度构成严重威胁‌

在当今科技巨头纷纷宣称其AI产品开源的时代，“开源”这一曾经的内行术语已跃然成为公众视野中的热门词汇。然而，在这个AI技术发展的关键时期，任何公司的失误都可能让公众对AI的信任度倒…

王浩然
2025年3月24日
000
AI前沿

如何提示 OpenAI 的新 o1 模型

OpenAI的最新模型系列o1有望比以前的模型更强大、推理能力更强。使用 GPT-o1 与提示 GPT-4 甚至 GPT-4o 略有不同。由于此模型具有更多的推理能力，因此一些…

王浩然
2024年9月15日
000
AI前沿

网络安全专家需要更安全、更专业的 GenAI 工具

CrowdStrike委托对全球 1,022 名网络安全专业人士进行了一项调查，以评估他们对生成式人工智能 (GenAI) 的采用及其影响的看法。研究结果显示，人们对 GenAI…

王浩然
2024年12月24日
000

发表回复

Please Login to Comment

中国研究人员推出 LLaVA-o1，挑战 OpenAI 的 o1 模型

多阶段推理

训练 LLaVA-o1

LLaVA-o1 实际运行

相关推荐

发表回复

Share To :