中国研究人员推出 LLaVA-o1,挑战 OpenAI 的 o1 模型

中国研究人员推出 LLaVA-o1,挑战 OpenAI 的 o1 模型

OpenAI的 o1 模型表明,推理时间扩展(在推理过程中使用更多计算)可以显著提升语言模型的推理能力。LLaVA -o1是由中国多所大学的研究人员开发的新模型,它将这一范式引入了开源视觉语言模型 (VLM)。

早期开源 VLM 通常使用直接预测方法,无需推理提示和解决提示所需的步骤即可生成答案。如果没有结构化的推理过程,它们在需要逻辑推理的任务中效率会降低。诸如思路链(CoT) 提示之类的高级提示技术(鼓励模型生成中间推理步骤)可以带来一些边际改进。但 VLM 经常会产生错误或产生幻觉。

研究人员发现,一个关键问题是现有 VLM 中的推理过程不够系统化和结构化。这些模型不会生成推理链,并且经常陷入推理过程中,不知道自己处于哪个阶段,也不知道必须解决什么具体问题。

研究人员写道:“我们观察到,VLM 经常在没有充分组织问题和可用信息的情况下发起响应。此外,它们经常偏离逻辑推理而得出结论,而不是过早得出结论,然后试图证明它。鉴于语言模型逐个标记生成响应,一旦引入错误的结论,该模型通常会继续沿着有缺陷的推理路径前进。”

多阶段推理

OpenAI o1使用推理时间缩放来解决系统性和结构化的推理问题,并允许模型在逐步解决问题时暂停并查看其结果。虽然 OpenAI 尚未公布有关 o1 底层机制的太多细节,但其结果为提高基础模型的推理能力指明了方向。

受 o1 的启发,研究人员设计了 LLaVA-o1 来进行分阶段推理。LLaVA-o1 不会生成直接的推理链,而是将推理过程分为四个不同的阶段:

摘要:模型首先对问题进行高层概括,概述需要解决的核心问题。

标题:  如果存在图像,模型会描述相关部分,重点关注与问题相关的元素。

推理:  在总结的基础上,模型进行结构化、逻辑化的推理,得出初步答案。

结论:最后,模型根据前面的推理,对答案进行简洁的总结。

只有结论阶段对用户可见;其他三个阶段代表模型的内部推理过程,类似于 o1 的隐藏推理轨迹。这种结构化方法使 LLaVA-o1 能够独立管理其推理过程,从而提高复杂任务的性能。

研究人员写道:“这种结构化方法使模型能够独立管理其推理过程,提高其在复杂推理任务中的适应性和性能。”

中国研究人员推出 LLaVA-o1,挑战 OpenAI 的 o1 模型

LLaVA-o1 还引入了一种名为“阶段级束搜索”的新型推理时间扩展技术。阶段级束搜索在每个推理阶段生成多个候选输出。然后,它会在每个阶段选择最佳候选以继续生成过程。这与经典的 Best-of-N 方法形成对比,在该方法中,模型被提示生成多个完整的响应,然后再选择一个。

研究人员写道:“值得注意的是,LLaVA-o1 的结构化输出设计使这种方法变得可行,从而能够在每个阶段进行高效、准确的验证。这验证了结构化输出在改善推理时间扩展方面的有效性。”

训练 LLaVA-o1

中国研究人员推出 LLaVA-o1,挑战 OpenAI 的 o1 模型

为了训练 LLaVA-o1,研究人员编制了一个新数据集,其中包含从几个广泛使用的 VQA 数据集中获得的约 100,000 个图像-问题-答案对。该数据集涵盖各种任务,从多轮问答到图表解释和几何推理。

研究人员使用GPT-4o为每个示例生成详细的四阶段推理过程,包括摘要、标题、推理和结论阶段。 

研究人员随后在此数据集上对Llama-3.2-11B-Vision-Instruct进行了微调,以获得最终的 LLaVA-o1 模型。研究人员尚未发布该模型,但计划发布数据集,称为 LLaVA-o1-100k。

LLaVA-o1 实际运行

研究人员在多个多模态推理基准上对 LLaVA-o1 进行了评估。尽管仅基于 100,000 个示例进行训练,但 LLaVA-o1 的性能比基础 Llama 模型有显著提升,平均基准得分提高了 6.9%。  

中国研究人员推出 LLaVA-o1,挑战 OpenAI 的 o1 模型

此外,阶段级波束搜索带来了额外的性能提升,证明了推理时间扩展的有效性。由于计算资源限制,研究人员只能使用 2 的波束大小来测试该技术。他们预计,随着波束大小的增大,改进效果会更大。

令人印象深刻的是,LLaVA-o1 不仅优于其他同等或更大的开源模型,而且还优于GPT-4-o-mini和Gemini 1.5 Pro等一些闭源模型。

研究人员写道:“LLaVA-o1 为 VLM 中的多模态推理建立了新标准,提供了强大的性能和可扩展性,尤其是在推理时间方面。”“我们的工作为未来 VLM 中的结构化推理研究铺平了道路,包括使用外部验证器进行潜在扩展以及使用强化学习来进一步增强复杂的多模态推理能力。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/zhong-guo-yan-jiu-ren-yuan-tui-chu-llavao1-tiao-zhan-openai

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年11月26日
Next 2024年11月26日

相关推荐

发表回复

Please Login to Comment