Cohere在其搜索模型中添加了多模式嵌入,允许用户将图像部署到 RAG 风格的企业搜索中。
去年推出的Embed 3使用嵌入模型将数据转换为数字表示。嵌入在检索增强生成 (RAG) 中变得至关重要,因为企业可以对其文档进行嵌入,然后模型可以对其进行比较以获取提示所请求的信息。
新的多模态版本可以生成图像和文本中的嵌入。Cohere 声称 Embed 3“现在是市场上最通用的多模态嵌入模型”。Cohere 联合创始人兼首席执行官 Aidan Gomez 在 X 上发布了一张图表,展示了使用 Embed 3 在图像搜索方面的性能改进。
Cohere 在一篇博客文章中表示:“这一进步使企业能够从存储在图像中的大量数据中释放出真正的价值。” “企业现在可以构建系统,准确、快速地搜索重要的多模式资产,如复杂的报告、产品目录和设计文件,以提高劳动力生产率。”
Cohere 表示,更加注重多模式扩展了企业通过 RAG 搜索可以访问的数据量。许多组织通常将RAG 搜索限制在结构化和非结构化文本上,尽管其数据库中有多种文件格式。客户现在可以引入更多图表、图形、产品图像和设计模板。
性能改进
Cohere 表示,Embed 3 中的编码器“共享统一的潜在空间”,允许用户将图像和文本都包含在数据库中。一些图像嵌入方法通常需要为图像和文本维护单独的数据库。该公司表示,这种方法可以实现更好的混合模态搜索。
该公司表示:“其他模型倾向于将文本和图像数据聚类到不同的区域,这会导致搜索结果偏向纯文本数据。另一方面,Embed 3 优先考虑数据背后的含义,而不会偏向特定的模态。”
Embed 3 支持 100 多种语言。
Cohere 表示,多模式 Embed 3 现已在其平台和 Amazon SageMaker 上使用。
奋起直追
由于 Google 等平台和 ChatGPT 等聊天界面引入了基于图片的搜索功能,许多消费者很快就熟悉了多模式搜索。随着个人用户习惯于通过图片查找信息,他们希望在工作生活中获得同样的体验也是合情合理的。
企业也开始看到这种好处,因为其他提供嵌入模型的公司也提供了一些多模态选项。一些模型开发商,如谷歌和OpenAI,提供了某种类型的多模态嵌入。其他开源模型也可以促进图像和其他模态的嵌入。现在的竞争集中在能够以企业要求的速度、准确性和安全性执行的多模态嵌入模型上。
Cohere 是由 Transformer 模型的部分研究人员创建的(Gomez 是著名论文《注意力就是一切》的作者之一),它一直努力成为企业领域许多人关注的焦点。该公司于 9 月更新了 API,允许客户轻松地从竞争对手的模型切换到 Cohere 的模型。当时,Cohere 表示此举是为了与行业标准保持一致,因为客户经常在模型之间切换。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/cohere-wei-qi-rag-sou-suo-gong-neng-tian-jia-le-shi-jue