突破数据瓶颈：Salesforce 的 ProVision 利用图像场景图加速多模式 AI 训练

王浩然 • 2025年1月11日下午5:00 • AI前沿 • 73 views

随着世界各地的企业加倍投入 AI 项目，高质量训练数据的可用性已成为一个主要瓶颈。虽然公共网络作为数据源已基本耗尽，但 OpenAI 和 Google 等主要参与者正在确保独家合作伙伴关系以扩展其专有数据集，从而进一步限制其他人的访问。

为了解决这一日益严重的问题，Salesforce在视觉训练数据领域迈出了重要一步。该公司刚刚推出了 ProVision，这是一个新颖的框架，可以以编程方式生成视觉指导数据。这些数据集经过系统地合成，可以训练高性能多模式语言模型 (MLM)，以回答有关图像的问题。

该公司已经采用这种方法发布了 ProVision-10M 数据集，并正在利用它来提高各种多模式 AI 模型的性能和准确性。

对于数据专业人员来说，这个框架代表着一项重大进步。通过以编程方式生成高质量的视觉指导数据，ProVision 减轻了对有限或不一致标记数据集的依赖，这是训练多模式系统时常见的挑战。

此外，系统地合成数据集的能力可确保更好的控制、可扩展性和一致性，从而实现更快的迭代周期并降低获取特定领域数据的成本。这项工作是对合成数据生成领域正在进行的研究的补充，就在Nvidia 推出 Cosmos 的第二天，Cosmos 是一套世界基础模型，专门用于通过文本、图像和视频等输入组合生成基于物理的视频，用于物理 AI 训练。

视觉指导数据：多模态人工智能的关键要素

如今，指令数据集是 AI 预训练或微调的核心。这些专门的数据集可帮助模型遵循并有效响应特定指令或查询。在多模态 AI 的情况下，模型在从大量不同的数据点学习后，能够分析图像等内容，并附上描述它们的问答对（或视觉指令数据）。

现在，问题是：制作这些视觉指导数据集相当麻烦。如果企业手动为每个训练图像创建数据，最终会浪费大量时间和人力资源来完成项目。另一方面，如果它选择使用专有语言模型来完成任务，它必须处理高计算成本和幻觉风险，其中问答对的质量和准确性可能不够好。

此外，使用专有模型也是一种黑盒机制，因为它很难解释数据生成的过程并控制或精确定制输出。

进入 Salesforce ProVision

为了解决这些差距，Salesforce 的人工智能研究团队提出了 ProVision，这是一个使用场景图与人工编写的程序结合的框架，以系统地合成以视觉为中心的指令数据。

从本质上讲，场景图可以描述为图像语义的结构化表示，其中内容中的对象表示为节点。每个对象的属性（如颜色或大小）直接分配给各自的节点，而这些对象之间的关系则表示为连接相应节点的有向边。这些表示可以来自手动注释的数据集（例如 Visual Genome），也可以借助场景图生成管道生成，该管道结合了各种最先进的视觉模型，涵盖了图像语义的各个方面，从对象和属性检测到深度估计。

一旦场景图准备就绪，它们就会为使用 Python 和文本模板编写的程序提供支持，这些程序可以作为成熟的数据生成器，为 AI 训练管道创建问答对。

“每个 [数据] 生成器都使用数百个预定义模板，这些模板系统地集成这些注释以生成不同的指令数据。这些生成器旨在……根据每个场景图中编码的详细信息，比较、检索和推理对象、属性和关系的基本视觉概念，”该框架背后的研究人员在一篇论文中写道。

用于 AI 训练的 ProVision-10M 数据集

在工作中，Salesforce 采用了两种方法——增强手动注释的场景图和从头开始生成——来设置场景图，为 24 个单图像数据生成器和 14 个多图像生成器提供支持。

“通过这些数据生成器，我们可以根据图像的场景图自动合成问题和答案。例如，给定一张繁忙街道的图像，ProVision 可以生成诸如“行人和汽车之间的关系是什么？”或“哪个物体更靠近红色建筑物，汽车还是行人？”首席研究员张洁宇和薛乐在一篇博客文章中指出。

采用第一种方法的数据生成器使用 Depth Anything V2 和 SAM-2 的深度和分割注释增强了 Visual Genome 的场景图，从而帮助他们创建了 150 万个单图像指令数据点和 420 万个多图像指令数据点。同时，另一种方法使用来自 DataComp 数据集的 120,000 张高分辨率图像以及 Yolo-World、Coca、Llava-1.5 和 Osprey 等模型，生成了 230 万个单图像指令数据点和 420 万个多图像指令数据点。

总的来说，这四个部分合在一起构成了 ProVision-10M，这是一个拥有超过 1000 万个唯一指令数据点的数据集。它现在已在Hugging Face上可用，并且已证明在 AI 训练流程中非常有效。

具体来说，当该公司将 ProVision-10M 纳入多模态 AI 微调方案（LLaVA-1.5 用于单图像指令数据，Mantis-SigLIP-8B 用于多图像指令数据）时，看到了显着的改进，模型的平均性能高于没有 ProVision 数据的微调。

研究人员在论文中指出：“在指令调整阶段采用我们的单图像指令数据后，CVBench 的 2D 分割性能提升高达 7%，3D 分割性能提升高达 8%，同时 QBench2、RealWorldQA 和 MMMU 的性能提升高达 3%。我们的多图像指令数据使 Mantis-Eval 的性能提升了 8%。”

合成数据将继续存在

虽然有多种工具和平台，包括 Nvidia 的全新 Cosmos 世界基础模型，可用于生成可用于多模态 AI 训练的不同模态数据（从图像到视频），但只有少数人研究过创建与该数据配对的指令数据集的问题。

Salesforce 正在通过 ProVision 解决这一瓶颈，为企业提供了一种超越手动标记或黑盒语言模型的方法。以编程方式生成指令数据的方法确保了生成过程的可解释性和可控性，并可在保持事实准确性的同时有效扩展。

从长远来看，该公司希望研究人员能够在这项工作的基础上增强场景图生成流程，并创建更多涵盖新类型指令数据（例如视频指令数据）的数据生成器。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/tu-po-shu-ju-ping-jing-salesforce-de-provision-li-yong-tu

Like (0)

王浩然作者

0 0

OpenAI已开始组建其机器人团队

Previous 2025年1月11日

自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务

Next 2025年1月11日

AI前沿

人工智能如何改变零售业：视频分析的作用

人工智能已成为重塑全球行业不可或缺的工具，零售业也不例外。从增强客户体验到优化运营，人工智能驱动的技术正在对整个零售生态系统产生深远影响。最引人注目的创新之一是视频分析，它通过使用…

王浩然
2025年1月12日
000
AI前沿

如果你认为 SearchGPT 已经准备好取代谷歌，那可能只是幻觉

当OpenAI首次推出SearchGPT时，演示表明人们在网上搜索东西的方式将立即永远改变。但是，当人工智能搜索引擎的运行示例被证明存在一些缺陷时，“哇”变成了“哇，这太尴尬了” …

王浩然
2024年9月9日
000
AI前沿

联发科新天玑1000旗舰移动芯片上的“Agentic”AI到底是什么？

每个芯片制造商都在 AI 领域孤注一掷，但联发科的 Dimensity 9400 SoC 却推动了“代理”AI 的概念，即能够为您控制手机的 AI。总部位于中国的芯片制造商联发科…

王浩然
2024年10月10日
000
AI前沿

Tails OS 与 Tor Project 合并

Tor 项目是一家非盈利组织，负责维护 Tor 匿名网络的软件。目前，该项目正与使用 Tor 的便携式操作系统制造商 Tails 携手合作。两家组织都希望共享资源、降低管理费用，并…

点点
2024年10月1日
000
AI前沿

Nvidia 刚刚爆料：其新 AI 模型开放、规模庞大，可与 GPT-4 竞争

Nvidia发布了强大的开源人工智能模型，可与 OpenAI 和 Google 等行业领导者的专有系统竞争。该公司新推出的NVLM 1.0系列大型多模态语言模型，以 720 亿参…

点点
2024年10月2日
000
AI前沿

研究表明，人工智能聊天机器人可以检测种族，但种族偏见会降低回应同理心

麻省理工学院、纽约大学和加州大学洛杉矶分校的研究人员开发了一种方法，以帮助评估 GPT-4 等大型语言模型是否足够公平，可以在临床上用于心理健康支持。借助匿名性和陌生人的陪伴，数…

王浩然
2025年1月3日
000
AI前沿

OpenAI 推出 ChatGPT 桌面集成，与 Copilot 竞争

当OpenAI发布 ChatGPT 的桌面应用版本时，其目标显然是让更多用户将 ChatGPT 纳入日常工作流程。现在，Mac OS 和 Windows PC 版本的新更新鼓励用户…

王浩然
2024年11月18日
000
AI前沿

SolarWinds：IT 专业人士希望加强对 AI 的监管

SolarWinds的一项新调查显示，人们强烈呼吁政府加强对人工智能的监督，88% 的 IT 专业人士主张加强监管。这项研究调查了近 700 名 IT 专家，结果显示安全是首要关…

点点
2024年9月19日
000
AI前沿

马斯克对 OpenAI 的修改后诉讼将微软列为被告

埃隆·马斯克对 OpenAI 提起的诉讼指控该公司放弃了非营利使命，该诉讼于 7 月撤回，但8 月又重新提起。现在，在一份修改后的诉状中，该诉讼将微软、LinkedIn 联合创始人…

王浩然
2024年11月16日
000
AI前沿

量子机器人和人工智能将与人类智能媲美

一个国际科学家团队预测，量子计算与人工智能的融合可以创造出具有前所未有能力的机器人，甚至可能与人类的智能相匹配。这些“量子机器人”将利用量子算法和流程，克服当前机器人依赖二进制计…

王浩然
2024年12月7日
000
AI前沿

狮门影业片库卖去炼 AI ，潘多拉魔盒就此打开

AI初创公司Runway近日与狮门娱乐（Lions Gate Entertainment）签订了一项合作协议，旨在将生成式人工智能技术引入电影和电视制作领域。根据该协议，Runw…

点点
2024年9月20日
000
AI前沿

探讨人工智能对社会影响的非小说类书籍

人工智能 (AI) 是执行复杂计算的代码或技术，涵盖模拟、数据处理和分析。人工智能的重要性日益凸显，已成为医疗保健、教育和金融等许多行业的变革者。事实证明，人工智能的使用可使许多…

点点
2024年9月18日
000
AI前沿

Amazon Nova 基础模型：重新定义生成式 AI 的价格和性能

生成式人工智能通过实现独特的内容创建、自动化任务和引领创新来改变行业。在过去十年中，人工智能 (AI)取得了显著进步。OpenAI的GPT-4 和 Google 的 Bard 等技…

王浩然
2025年1月20日
000
AI前沿

Agentic AI 可以帮助您在 2025 年找到一份新的软件工程工作

45% 的美国人担心自己的个人财务状况，最担心的是自己的财务未来，包括没有足够的钱退休（68%）、维持生活成本（56%）和控制债务水平（45%）。一份新的退休准备报告还发现，62…

王浩然
2025年1月8日
000
AI前沿

DeepSeek：全面了解这款AI聊天机器人应用‌

在人工智能领域，一款名为DeepSeek的聊天机器人应用正逐渐崭露头角。这款应用凭借其强大的AI技术和出色的用户体验，吸引了众多用户的关注。 DeepSeek的核心优势在于其先进的…

王浩然
2025年3月10日
000
AI前沿

支持自动化公司的能力随着新现金和收购而增长

大卫·卡兰迪什 (David Karandish) 一直很忙。他的支持自动化公司Capacity原本计划进行 500 万美元的“过渡融资”，以帮助公司达到盈亏平衡点。但 TVC C…

王浩然
2024年10月17日
000
AI前沿

WordPress 针对 WP Engine 采取的最新举措：控制 ACF 插件

WordPress 创始人 Matt Mullenweg 与托管服务提供商 WP Engine 之间的争执仍在继续，Mullenweg宣布WordPress 正在“分叉”WP En…

点点
2024年10月13日
000
AI前沿

人为因素：企业如何预防云灾难

大公司非常努力地确保他们的服务不会中断，原因很简单——严重的中断会损害你的品牌，并促使客户选择具有更好记录的竞争产品。构建可靠的互联网服务是一个技术难题，但对于公司领…

王浩然
2024年10月20日
000
AI前沿

为了安全起见，我们必须停止接听电话

您如何知道电话另一端的人确实是他们所说的那个人？ 7 月初，法拉利的一位高管收到了大量 WhatsApp 消息，这些消息似乎来自他的老板——法拉利汽车公司的首席执行官贝…

点点
2024年9月8日
000
AI前沿

行业领袖支持开源人工智能定义

开放源代码促进会（OSI）公布了一个定义框架，以评估人工智能系统是否可以归类为开源。第一个开源人工智能定义 (OSAID) 在All Things Open 大会上发布，标志着全…

点点
2024年11月4日
000