突破数据瓶颈:Salesforce 的 ProVision 利用图像场景图加速多模式 AI 训练

突破数据瓶颈:Salesforce 的 ProVision 利用图像场景图加速多模式 AI 训练

随着世界各地的企业加倍投入 AI 项目,高质量训练数据的可用性已成为一个主要瓶颈。虽然公共网络作为数据源已基本耗尽,但 OpenAIGoogle 等主要参与者正在确保独家合作伙伴关系以扩展其专有数据集,从而进一步限制其他人的访问。

为了解决这一日益严重的问题,Salesforce在视觉训练数据领域迈出了重要一步。该公司刚刚推出了 ProVision,这是一个新颖的框架,可以以编程方式生成视觉指导数据。这些数据集经过系统地合成,可以训练高性能多模式语言模型 (MLM),以回答有关图像的问题。

该公司已经采用这种方法发布了 ProVision-10M 数据集,并正在利用它来提高各种多模式 AI 模型的性能和准确性。

对于数据专业人员来说,这个框架代表着一项重大进步。通过以编程方式生成高质量的视觉指导数据,ProVision 减轻了对有限或不一致标记数据集的依赖,这是训练多模式系统时常见的挑战。

此外,系统地合成数据集的能力可确保更好的控制、可扩展性和一致性,从而实现更快的迭代周期并降低获取特定领域数据的成本。这项工作是对合成数据生成领域正在进行的研究的补充,就在Nvidia 推出 Cosmos 的第二天,Cosmos 是一套世界基础模型,专门用于通过文本、图像和视频等输入组合生成基于物理的视频,用于物理 AI 训练。

视觉指导数据:多模态人工智能的关键要素

如今,指令数据集是 AI 预训练或微调的核心。这些专门的数据集可帮助模型遵循并有效响应特定指令或查询。在多模态 AI 的情况下,模型在从大量不同的数据点学习后,能够分析图像等内容,并附上描述它们的问答对(或视觉指令数据)。

现在,问题是:制作这些视觉指导数据集相当麻烦。如果企业手动为每个训练图像创建数据,最终会浪费大量时间和人力资源来完成项目。另一方面,如果它选择使用专有语言模型来完成任务,它必须处理高计算成​​本和幻觉风险,其中问答对的质量和准确性可能不够好。

此外,使用专有模型也是一种黑盒机制,因为它很难解释数据生成的过程并控制或精确定制输出。

进入 Salesforce ProVision

为了解决这些差距,Salesforce 的人工智能研究团队提出了 ProVision,这是一个使用场景图与人工编写的程序结合的框架,以系统地合成以视觉为中心的指令数据。

从本质上讲,场景图可以描述为图像语义的结构化表示,其中内容中的对象表示为节点。每个对象的属性(如颜色或大小)直接分配给各自的节点,而这些对象之间的关系则表示为连接相应节点的有向边。这些表示可以来自手动注释的数据集(例如 Visual Genome),也可以借助场景图生成管道生成,该管道结合了各种最先进的视觉模型,涵盖了图像语义的各个方面,从对象和属性检测到深度估计。

一旦场景图准备就绪,它们就会为使用 Python 和文本模板编写的程序提供支持,这些程序可以作为成熟的数据生成器,为 AI 训练管道创建问答对。

“每个 [数据] 生成器都使用数百个预定义模板,这些模板系统地集成这些注释以生成不同的指令数据。这些生成器旨在……根据每个场景图中编码的详细信息,比较、检索和推理对象、属性和关系的基本视觉概念,”该框架背后的研究人员在一篇论文中写道。

突破数据瓶颈:Salesforce 的 ProVision 利用图像场景图加速多模式 AI 训练

用于 AI 训练的 ProVision-10M 数据集

在工作中,Salesforce 采用了两种方法——增强手动注释的场景图和从头开始生成——来设置场景图,为 24 个单图像数据生成器和 14 个多图像生成器提供支持。 

“通过这些数据生成器,我们可以根据图像的场景图自动合成问题和答案。例如,给定一张繁忙街道的图像,ProVision 可以生成诸如“行人和汽车之间的关系是什么?”或“哪个物体更靠近红色建筑物,汽车还是行人?”首席研究员张洁宇和薛乐在一篇博客文章中指出。

采用第一种方法的数据生成器使用 Depth Anything V2 和 SAM-2 的深度和分割注释增强了 Visual Genome 的场景图,从而帮助他们创建了 150 万个单图像指令数据点和 420 万个多图像指令数据点。同时,另一种方法使用来自 DataComp 数据集的 120,000 张高分辨率图像以及 Yolo-World、Coca、Llava-1.5 和 Osprey 等模型,生成了 230 万个单图像指令数据点和 420 万个多图像指令数据点。 

总的来说,这四个部分合在一起构成了 ProVision-10M,这是一个拥有超过 1000 万个唯一指令数据点的数据集。它现在已在Hugging Face上可用,并且已证明在 AI 训练流程中非常有效。

具体来说,当该公司将 ProVision-10M 纳入多模态 AI 微调方案(LLaVA-1.5 用于单图像指令数据,Mantis-SigLIP-8B 用于多图像指令数据)时,看到了显着的改进,模型的平均性能高于没有 ProVision 数据的微调。

研究人员在论文中指出:“在指令调整阶段采用我们的单图像指令数据后,CVBench 的 2D 分割性能提升高达 7%,3D 分割性能提升高达 8%,同时 QBench2、RealWorldQA 和 MMMU 的性能提升高达 3%。我们的多图像指令数据使 Mantis-Eval 的性能提升了 8%。”

突破数据瓶颈:Salesforce 的 ProVision 利用图像场景图加速多模式 AI 训练

合成数据将继续存在

虽然有多种工具和平台,包括 Nvidia 的全新 Cosmos 世界基础模型,可用于生成可用于多模态 AI 训练的不同模态数据(从图像到视频),但只有少数人研究过创建与该数据配对的指令数据集的问题。 

Salesforce 正在通过 ProVision 解决这一瓶颈,为企业提供了一种超越手动标记或黑盒语言模型的方法。以编程方式生成指令数据的方法确保了生成过程的可解释性和可控性,并可在保持事实准确性的同时有效扩展。 

从长远来看,该公司希望研究人员能够在这项工作的基础上增强场景图生成流程,并创建更多涵盖新类型指令数据(例如视频指令数据)的数据生成器。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/tu-po-shu-ju-ping-jing-salesforce-de-provision-li-yong-tu

Like (0)
王 浩然的头像王 浩然作者
Previous 4小时前
Next 57 mins ago

相关推荐

发表回复

Please Login to Comment