多式联运 RAG 正在发展，这是开始的最佳方式

王浩然 • 2024年11月11日下午6:00 • AI前沿 • 121 views

随着公司开始尝试多模态检索增强生成 (RAG)，提供多模态嵌入（一种将数据转换为 RAG 可读文件的方法）的公司建议企业在嵌入图像和视频时从小处着手。

多模态 RAG 还可以显示文本、图像或视频等各种文件类型，它依赖于嵌入模型，将数据转换为 AI 模型可以读取的数字表示。可以处理各种文件的嵌入让企业可以从财务图表、产品目录或任何信息视频中找到信息，并更全面地了解他们的公司。

Cohere上个月更新了其嵌入模型 Embed 3，用于处理图像和视频。该公司表示，企业需要以不同的方式准备数据，确保嵌入具有合适的性能，并更好地使用多模态 RAG。

Cohere 员工解决方案架构师 Yann Stoneman 在一篇博客文章中表示：“在将大量资源投入到多模态嵌入之前，最好先在更有限的范围内进行测试。这使您能够评估模型的性能和对特定用例的适用性，并应为全面部署之前所需的任何调整提供见解。 ”

该公司表示，文章中讨论的许多流程都存在于许多其他多模式嵌入模型中。

斯通曼表示，根据某些行业的不同，模型可能还需要“额外的训练来捕捉图像中的细微细节和变化”。他以医疗应用为例，放射扫描或微观细胞的照片需要专门的嵌入系统来理解这些图像中的细微差别。

数据准备是关键

在将图像输入多模态 RAG 系统之前，必须对其进行预处理，以便嵌入模型能够很好地读取它们。

可能需要调整图像大小以使它们都具有一致的大小，而组织需要弄清楚是否要改善低分辨率照片以免丢失重要细节，或者降低过高分辨率图片的质量以免增加处理时间。

“该系统应该能够处理图像指针（例如 URL 或文件路径）以及文本数据，而这在基于文本的嵌入中可能无法实现。为了创造流畅的用户体验，组织可能需要实施自定义代码以将图像检索与现有的文本检索相结合，”博客中说道。

多模态嵌入变得更加有用

许多 RAG 系统主要处理文本数据，因为使用基于文本的信息作为嵌入比使用图像或视频更容易。然而，由于大多数企业都拥有各种数据，因此可以搜索图片和文本的 RAG 变得越来越流行。组织通常必须实施单独的 RAG 系统和数据库，从而阻止混合模态搜索。

多模态搜索并不是什么新鲜事，OpenAI和Google在各自的聊天机器人上都提供了多模态搜索功能。OpenAI 于 1 月推出了最新一代嵌入模型。其他公司也为企业提供了一种利用不同数据进行多模态 RAG 的方法。例如，Uniphore发布了一种方法来帮助企业为 RAG准备多模态数据集。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/duo-shi-lian-yun-rag-zheng-zai-fa-zhan-zhe-shi-kai-shi-de

Like (0)

王浩然作者

0 0

AGI 的到来比我们想象的要快——我们必须做好准备

Previous 2024年11月11日

2025 年的身份管理：安全团队可通过 4 种方式解决漏洞和风险

Next 2024年11月11日

AI前沿

思科AI防御如何抵御你从未见过的网络威胁

随着企业在各个业务领域中加速采用AI技术，其快速适应性也带来了一个安全悖论——如何在系统不断演变的同时，将其安全扩展到整个企业范围？目前，对抗性AI正主导着威胁态势，引发了一场隐形…

王浩然
2025年2月23日
000
AI前沿

研究表明，人类反馈使人工智能更善于欺骗人类

根据 Anthropic 和中国与美国大学研究人员的一项新预印本研究，人工智能公司用来提高大型语言模型质量的最流行技术之一，可能会使这些模型更好地欺骗人类。这是研究首次实证证明一…

王浩然
2024年9月29日
000
AI前沿

OpenAI获得400亿美元巨额融资，企业AI竞争进入新阶段

在科技界引起轰动的一则消息中，OpenAI宣布完成了一轮高达400亿美元的融资，由软银集团领投，这一里程碑式的融资将OpenAI的估值推高至前所未有的3000亿美元，成为有史以来最…

王浩然
2025年4月1日
000
AI前沿

忘掉 GPT-5！OpenAI 推出全新 AI 模型系列 o1，声称性能达到博士级

自 2023 年 3 月（18 个月前）OpenAI 推出强大的专有大型语言模型 (LLM) GPT-4以来，用户和开发人员一直在想，这家在硅谷乃至全球掀起生成式人工智能热潮的公司…

王浩然
2024年9月15日
000
AI前沿

小型 AI 模型需求激增，阿联酋猎鹰 3 号向开源领导者发起挑战

阿联酋政府支持的技术创新研究所(TII) 宣布推出 Falcon 3，这是一系列开源小型语言模型 (SLM)，旨在在轻量级、基于单 GPU 的基础设施上高效运行。 Falcon 3…

王浩然
2024年12月18日
000
AI前沿

单一标记如何成就或破坏人工智能推理

想象一下，让人工智能解决一个关于偿还贷款的简单数学问题。当人工智能遇到“欠”这个词时，它会结巴，产生错误的计算和错误的逻辑。但是，将这个词改成“付”，人工智能的推理就会突然转变——…

王浩然
2024年12月9日
000
AI前沿

GenLayer推出AI代理交易新方案：让多个大型语言模型投票选出合适合同

GenLayer创新策略：利用AI集体智慧优化合同制定流程在人工智能（AI）技术日新月异的今天，AI正逐渐渗透到各个行业和领域的核心业务流程中。近期，GenLayer公司推出了一…

王浩然
2025年3月19日
000
AI前沿

调查显示 CEO 预计生成式人工智能将带来重大影响

NTT Data 的一份新报告发现，一项新的行业调查显示，几乎所有商业领袖都表示他们已经对生成式人工智能进行了投资，另有 83% 的商业领袖已经建立了专门从事该技术的专家或强大的团…

王浩然
2024年12月2日
000
AI前沿

搜索变得更智能：OpenAI 的 SearchGPT 如何改变游戏规则

在我们日益互联的世界里，高效而准确的网络搜索已变得至关重要。无论是学生为学术项目收集信息，还是专业人士想要了解最新的行业趋势，搜索引擎已成为我们日常生活中必不可少的一部分。然而，虽…

点点
2024年9月12日
000
AI前沿

获得准确结果的五大反向视频搜索工具

您是否曾经盯着某个视频，想知道最初是谁发布的？或者，也许您自己制作了一个视频，突然间，它出现在互联网上，却没有注明来源。反向视频搜索工具就是为此类情况而设计的。它们让您可以上传视频…

点点
2024年9月26日
000
AI前沿

Meta 计划限制发布有风险的人工智能系统

Frontier AI 框架描述了 Meta 如何将 AI 模型分为高风险组和严重风险组 Meta发布了一个新的风险政策框架，概述了其计划如何评估和减轻新前沿 AI 模型带来的风险…

王浩然
2025年2月18日
000
AI前沿

Lightmatter 获得 4 亿美元融资，AI 超大规模企业对光子数据中心充满期待

光子计算初创公司Lightmatter已筹集 4 亿美元，旨在突破现代数据中心的一个瓶颈。该公司的光学互连层可让数百个 GPU 同步工作，从而简化了昂贵而复杂的 AI 模型训练和运…

王浩然
2024年10月17日
000
AI前沿

AI 能否利用安全检查来破坏用户？是的，但效果不是很好 — 目前来说

人工智能公司声称已经实施了严格的安全检查，以确保模型不会说或做奇怪、非法或不安全的事情。但如果模型能够逃避这些检查，并出于某种原因试图破坏或误导用户，该怎么办？据 Anthropi…

点点
2024年10月21日
000
AI前沿

自主移动机器人如何改变零售客户体验

目前，零售业AI的市场规模预估约为90亿美元，预计到2029年将达到400亿美元。在零售食品行业盛会GroceryTech 2024上，CEO和CIO们谈到了对AI的日益关注，同时…

点点
2024年9月17日
000
AI前沿

OpenAI 将 o1 AI 模型扩展到企业和教育领域，与 Anthropic 直接竞争

OpenAI已向所有ChatGPT Enterprise和ChatGPT Edu客户开放其最新的 AI 模型o1-preview和o1-mini。这些模型旨在处理复杂的推理任务，有…

王浩然
2024年9月20日
000
AI前沿

人工智能热潮中英伟达成为全球最大公司

得益于全球人工智能的推动，英伟达周二市值超过苹果，成为全球最大公司。据彭博社报道，自 2022 年底以来，这家芯片制造商的市值增长了 850%。截至收盘，Nvidia 市值为 3…

王浩然
2024年11月6日
000
AI前沿

量子驱动的生成式人工智能框架问世

量子计算公司Quantinuum推出了其生成量子人工智能 (Gen QAI) 框架，这是一种量子驱动人工智能的新方法。该方法利用量子生成的数据来增强人工智能系统，解锁制药、金融建…

王浩然
2025年2月5日
000
AI前沿

Salesforce 首席执行官 Marc Beinoff 抨击 Microsoft Copilot 为“Clippy 2.0”

“Clippy” 当然是微软1996 年推出的 Clippit 虚拟屏幕 Word 和 Office 对话助手的流行昵称。虽然现在人们以它可爱的表情和大眼睛的眼光看待它，但在 20…

王浩然
2024年10月19日
000
AI前沿

亚马逊在测试设施发生坠机事故后暂停美国无人机送货

据彭博社报道，亚马逊暂停了其送货无人机的测试，原因是两款无人机发生坠毁事故。这是亚马逊陷入困境的Prime Air 计划遭遇的最新挫折，该计划的目标是到本世纪末每年向客户运送约 5…

王浩然
2025年1月20日
000
AI前沿

Google DeepMind 研究人员推出新基准以提高 LLM 真实性并减少幻觉

幻觉，即事实不准确的回答，继续困扰大型语言模型 (LLM)。当模型被赋予更复杂的任务，并且当用户寻求具体且高度详细的回答时，模型尤其会失效。这是数据科学家一直努力克服的一个挑战…

王浩然
2025年1月11日
000

发表回复

Please Login to Comment

多式联运 RAG 正在发展，这是开始的最佳方式

数据准备是关键

多模态嵌入变得更加有用

相关推荐

发表回复

Share To :