随着公司开始尝试多模态检索增强生成 (RAG),提供多模态嵌入(一种将数据转换为 RAG 可读文件的方法)的公司建议企业在嵌入图像和视频时从小处着手。
多模态 RAG 还可以显示文本、图像或视频等各种文件类型,它依赖于嵌入模型,将数据转换为 AI 模型可以读取的数字表示。可以处理各种文件的嵌入让企业可以从财务图表、产品目录或任何信息视频中找到信息,并更全面地了解他们的公司。
Cohere上个月更新了其嵌入模型 Embed 3,用于处理图像和视频。该公司表示,企业需要以不同的方式准备数据,确保嵌入具有合适的性能,并更好地使用多模态 RAG。
Cohere 员工解决方案架构师 Yann Stoneman 在一篇博客文章中表示:“在将大量资源投入到多模态嵌入之前,最好先在更有限的范围内进行测试。这使您能够评估模型的性能和对特定用例的适用性,并应为全面部署之前所需的任何调整提供见解。 ”
该公司表示,文章中讨论的许多流程都存在于许多其他多模式嵌入模型中。
斯通曼表示,根据某些行业的不同,模型可能还需要“额外的训练来捕捉图像中的细微细节和变化”。他以医疗应用为例,放射扫描或微观细胞的照片需要专门的嵌入系统来理解这些图像中的细微差别。
数据准备是关键
在将图像输入多模态 RAG 系统之前,必须对其进行预处理,以便嵌入模型能够很好地读取它们。
可能需要调整图像大小以使它们都具有一致的大小,而组织需要弄清楚是否要改善低分辨率照片以免丢失重要细节,或者降低过高分辨率图片的质量以免增加处理时间。
“该系统应该能够处理图像指针(例如 URL 或文件路径)以及文本数据,而这在基于文本的嵌入中可能无法实现。为了创造流畅的用户体验,组织可能需要实施自定义代码以将图像检索与现有的文本检索相结合,”博客中说道。
多模态嵌入变得更加有用
许多 RAG 系统主要处理文本数据,因为使用基于文本的信息作为嵌入比使用图像或视频更容易。然而,由于大多数企业都拥有各种数据,因此可以搜索图片和文本的 RAG 变得越来越流行。组织通常必须实施单独的 RAG 系统和数据库,从而阻止混合模态搜索。
多模态搜索并不是什么新鲜事,OpenAI和Google在各自的聊天机器人上都提供了多模态搜索功能。OpenAI 于 1 月推出了最新一代嵌入模型。其他公司也为企业提供了一种利用不同数据进行多模态 RAG 的方法。例如,Uniphore发布了一种方法来帮助企业为 RAG准备多模态数据集。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/duo-shi-lian-yun-rag-zheng-zai-fa-zhan-zhe-shi-kai-shi-de