
Patronus AI近日宣布推出业界首款多模态大型语言模型评判工具(MLLM-as-a-Judge),名为Judge-Image。该工具专为评估解释图像并生成文本的AI系统而设计,旨在帮助开发者检测和缓解多模态AI应用中的幻觉和可靠性问题。电商巨头Etsy已经采用这项技术,以验证其平台上手工和复古商品图片的描述准确性。
Judge-Image:确保AI诚信的利器
技术的诞生与目的
Patronus AI的联合创始人Anand Kannappan在接受专访时表示:“我们非常激动地宣布,Etsy是我们的首批客户之一。他们的在线市场上拥有数亿件来自世界各地的手工和复古产品。Etsy的AI团队希望利用生成式AI自动为图片生成描述,并确保随着业务覆盖全球用户,所生成的描述准确无误。”
为什么选择Google的Gemini而非OpenAI
Patronus在广泛比较了包括OpenAI的GPT-4V在内的多种模型后,选择了Google的Gemini模型来构建其首个MLLM-as-a-Judge——Judge-Image。“我们发现GPT-4V在某种程度上更倾向于自我中心化,而Gemini在这方面则表现得更为公正,对不同类型的输入输出对有着更为平等的评判方式,”Kannappan解释道,“这体现在它们对不同来源的评分分布上的一致性。”
Judge-Image的核心功能与应用
多维度评估标准
Judge-Image提供了现成的评估工具,从多个维度对图片描述进行评估,包括描述幻觉检测、主要和非主要物体的识别、物体位置准确性,以及文本检测和分析。
广泛的应用前景
尽管Etsy是Judge-Image在电商领域的旗舰客户,但Patronus看到了远超零售的应用潜力。Kannappan表示:“营销团队通常希望能够针对新的设计区块(特别是营销设计和产品设计)可扩展地创建描述和标题。此外,像风险投资公司和律师事务所这样的大型企业,其工程团队可能还在使用相对老旧的技术,从PDF中提取各种信息,或对大型文档的内容进行总结。”
外包AI评估的战略与经济考量
企业面临的抉择
随着AI在企业流程中的重要性日益提升,许多企业面临着内部开发评估工具还是外部采购的抉择。Kannappan认为,外包AI评估在战略和经济上都是明智的选择:“我们发现,许多团队一开始可能尝试内部开发解决方案,但随后意识到这既不是他们的核心价值主张,也不是他们正在开发的产品的一部分。而且,这还是一个非常具有挑战性的问题,不仅从AI角度来看,从基础设施角度来看也是如此。”
多模态系统中的失败点
对于RAG系统、代理,甚至多模态AI系统,失败可能发生在系统的各个部分。“当我们处理RAG系统、代理,甚至多模态AI系统时,我们发现失败会发生在系统的所有部分,”Kannappan指出。
Patronus的商业模式与未来规划
灵活多样的定价策略
Patronus提供多个定价层级,从允许用户在一定量限制内免费试用平台的选项开始。超出此限制后,客户可以根据评估器的使用情况按需付费,或者与企业销售团队联系,以获取具有定制功能和定制定价的企业安排。
与科技巨头的互补关系
尽管Judge-Image基于Google的Gemini模型构建,但Patronus将自己定位为与Google、OpenAI和Anthropic等基础模型提供商互补,而非竞争。“我们不认为我们所构建的技术或解决方案与基础公司竞争,而是非常互补的,是在工具包中新增的强大工具,最终帮助人们开发出更好的LLM系统,而不是LLM本身,”Kannappan说。
拓展至音频评估的未来规划
Patronus宣布的计划是其对AI评估进行跨模态拓展的更广泛战略的一部分。该公司计划很快将评估范围从图像扩展到音频。“我们很兴奋,因为这是实现我们多模态愿景的下一步,我们今天专注于图像,随着时间的推移,我们对音频的未来也充满期待,”Kannappan确认道。
结语
随着企业竞相部署能够解释图像、从文档中提取文本和生成视觉内容的AI系统,不准确、幻觉和偏见的风险也在增加。Patronus认为,即使基础模型不断改进,评估复杂多模态AI系统的挑战依然存在,需要专门的工具来作为日益接近人类输出的AI输出的公正评判者。在商业AI部署的高风险世界中,这些数字评判者可能与其评估的模型同样重要。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/patronus-ai-tui-chu-judgeimage-zhi-zai-que-bao-ai-cheng-xin