Patronus AI推出Judge-Image：旨在确保AI诚信，Etsy已率先采用

王浩然 • 2025年3月17日下午1:00 • AI前沿 • 77 views

Patronus AI近日宣布推出业界首款多模态大型语言模型评判工具（MLLM-as-a-Judge），名为Judge-Image。该工具专为评估解释图像并生成文本的AI系统而设计，旨在帮助开发者检测和缓解多模态AI应用中的幻觉和可靠性问题。电商巨头Etsy已经采用这项技术，以验证其平台上手工和复古商品图片的描述准确性。

Judge-Image：确保AI诚信的利器

技术的诞生与目的

Patronus AI的联合创始人Anand Kannappan在接受专访时表示：“我们非常激动地宣布，Etsy是我们的首批客户之一。他们的在线市场上拥有数亿件来自世界各地的手工和复古产品。Etsy的AI团队希望利用生成式AI自动为图片生成描述，并确保随着业务覆盖全球用户，所生成的描述准确无误。”

为什么选择Google的Gemini而非OpenAI

Patronus在广泛比较了包括OpenAI的GPT-4V在内的多种模型后，选择了Google的Gemini模型来构建其首个MLLM-as-a-Judge——Judge-Image。“我们发现GPT-4V在某种程度上更倾向于自我中心化，而Gemini在这方面则表现得更为公正，对不同类型的输入输出对有着更为平等的评判方式，”Kannappan解释道，“这体现在它们对不同来源的评分分布上的一致性。”

Judge-Image的核心功能与应用

多维度评估标准

Judge-Image提供了现成的评估工具，从多个维度对图片描述进行评估，包括描述幻觉检测、主要和非主要物体的识别、物体位置准确性，以及文本检测和分析。

广泛的应用前景

尽管Etsy是Judge-Image在电商领域的旗舰客户，但Patronus看到了远超零售的应用潜力。Kannappan表示：“营销团队通常希望能够针对新的设计区块（特别是营销设计和产品设计）可扩展地创建描述和标题。此外，像风险投资公司和律师事务所这样的大型企业，其工程团队可能还在使用相对老旧的技术，从PDF中提取各种信息，或对大型文档的内容进行总结。”

外包AI评估的战略与经济考量

企业面临的抉择

随着AI在企业流程中的重要性日益提升，许多企业面临着内部开发评估工具还是外部采购的抉择。Kannappan认为，外包AI评估在战略和经济上都是明智的选择：“我们发现，许多团队一开始可能尝试内部开发解决方案，但随后意识到这既不是他们的核心价值主张，也不是他们正在开发的产品的一部分。而且，这还是一个非常具有挑战性的问题，不仅从AI角度来看，从基础设施角度来看也是如此。”

多模态系统中的失败点

对于RAG系统、代理，甚至多模态AI系统，失败可能发生在系统的各个部分。“当我们处理RAG系统、代理，甚至多模态AI系统时，我们发现失败会发生在系统的所有部分，”Kannappan指出。

Patronus的商业模式与未来规划

灵活多样的定价策略

Patronus提供多个定价层级，从允许用户在一定量限制内免费试用平台的选项开始。超出此限制后，客户可以根据评估器的使用情况按需付费，或者与企业销售团队联系，以获取具有定制功能和定制定价的企业安排。

与科技巨头的互补关系

尽管Judge-Image基于Google的Gemini模型构建，但Patronus将自己定位为与Google、OpenAI和Anthropic等基础模型提供商互补，而非竞争。“我们不认为我们所构建的技术或解决方案与基础公司竞争，而是非常互补的，是在工具包中新增的强大工具，最终帮助人们开发出更好的LLM系统，而不是LLM本身，”Kannappan说。

拓展至音频评估的未来规划

Patronus宣布的计划是其对AI评估进行跨模态拓展的更广泛战略的一部分。该公司计划很快将评估范围从图像扩展到音频。“我们很兴奋，因为这是实现我们多模态愿景的下一步，我们今天专注于图像，随着时间的推移，我们对音频的未来也充满期待，”Kannappan确认道。

结语

随着企业竞相部署能够解释图像、从文档中提取文本和生成视觉内容的AI系统，不准确、幻觉和偏见的风险也在增加。Patronus认为，即使基础模型不断改进，评估复杂多模态AI系统的挑战依然存在，需要专门的工具来作为日益接近人类输出的AI输出的公正评判者。在商业AI部署的高风险世界中，这些数字评判者可能与其评估的模型同样重要。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/patronus-ai-tui-chu-judgeimage-zhi-zai-que-bao-ai-cheng-xin

Like (0)

王浩然作者

0 0

Gemini 2.0 闪亮登场：闪思（Flash Thinking）融入记忆与Google应用集成

Previous 2025年3月17日

Anthropic研究者诱导Claude欺骗：意外发现或将保护我们免受失控AI威胁

Next 2025年3月17日

AI前沿

Read AI 融资 5000 万美元，以满足市场对其 AI 摘要机器人的强劲需求

现在，我们有如此多的初创公司提供人工智能机器人，这些机器人可以做各种事情，从聆听会议并转录会议内容，到做笔记和提出见解，该领域的公司被迫通过提供额外的功能集和集成来脱颖而出。 Re…

王浩然
2024年10月28日
000
AI前沿

亚马逊网络服务 (AWS) re:Invent 2024 的重磅新闻

云计算领导者亚马逊网络服务 (AWS) 的2024 年年度 re:Invent 大会本周于内华达州拉斯维加斯举行，它有望成为该系列12 年前推出以来规模最大的一次大会。为什么？当…

王浩然
2024年12月5日
000
AI前沿

AWS 关闭了用于 AI 音乐的 MIDI 键盘 DeepComposer

AWS 奇怪的人工智能键盘实验DeepComposer不复存在。该公司在今天的一篇博客文章中宣布关闭已有 5 年历史的 DeepComposer，这是一款物理 MIDI 钢琴和 …

王浩然
2024年9月19日
000
AI前沿

英国获得63亿英镑数据基础设施投资

美国四大公司宣布计划向英国数据基础设施投资总计 63 亿英镑。英国科技大臣彼得·凯尔在国际投资峰会上宣布了这一消息，称这是对英国与企业合作推动增长的方式的“信任投票”…

点点
2024年10月15日
000
AI前沿

Bifrost 利用其 3D 数据生成平台帮助工业界加快模型训练

对于许多致力于开发物理世界应用的 AI 模型的公司来说，数据是最大的机遇。但这也是他们面临的最大障碍，因为标记清晰、干净的现实世界数据随处可见，而收集和清理数据所需的成本和精力可能…

王浩然
2024年10月31日
000
AI前沿

拥抱变化而不牺牲传统：人工智能代理对信用合作社的承诺

近年来，金融服务业一直引领创新，推出金融科技、数字银行和其他技术解决方案，该行业在风险投资中一直名列前茅。然而，信用合作社等金融机构的情况却并非如此，它们通常依靠与会员的面对面互动…

王浩然
2025年1月15日
000
AI前沿

硅谷在 2024 年扼杀了人工智能末日运动

多年来，技术专家一直在敲响警钟，警告先进的人工智能系统可能给人类造成灾难性的破坏。但到了 2024 年，这些警告声被科技行业所推广的生成式人工智能的实用而繁荣的愿景所淹没——这一…

王浩然
2025年1月2日
000
AI前沿

人工智能失散已久的孪生兄弟：工程智能

我们正面临第四次人工智能寒冬，人们开始动摇对人工智能将产生足够的实际价值来证明其成本合理的信心。随着高盛和其他研究机构的文章纷纷落叶归根，我们仍然有时间阻止下一个人工智能寒冬，而…

王浩然
2024年9月2日
000
AI前沿

人工定价与人工智能定价：为什么人工智能是零售业成功的未来

定价是零售盈利能力和客户满意度的支柱。合理的定价可以成就或毁掉一家企业，因为它直接影响利润、竞争力和品牌认知度。然而，如今许多企业仍然依赖人工定价策略，认为人工判断可以确保更好的控…

王浩然
2025年1月13日
000
AI前沿

生成式人工智能热潮背后的风险：为何人们越来越谨慎

在不久的将来，硅谷可能会回顾最近发生的事件，认为这是生成式人工智能热潮走得太远的标志。今年夏天，投资者质疑顶级人工智能股票能否维持其高估值，因为大规模人工智能支出缺乏回报。随着秋…

点点
2024年10月11日
000
AI前沿

在索尼的PlayStation State of Play中宣布的一切

在今晚的PlayStation State of Play中，我们得到了一些关于PS5在不久的将来等待我们的见解。这包括查看即将发布的标题和已发布标题的更新。这是惊喜的混合体——比…

点点
2024年9月26日
000
AI前沿

Perplexity 推出 Sonar API，通过实时 AI 搜索与 Google 和 OpenAI 竞争

Perplexity积极竞标以占领企业 AI 搜索市场，并推出了Sonar，这是一项 API 服务，其在关键基准上的表现优于Google、OpenAI和Anthropic的产品，同…

王浩然
2025年1月22日
000
AI前沿

Sedric 监控金融机构员工的通信，以确保合规性

对于金融机构来说，遵守法规的成本越来越高。根据最近的一项民意调查，76% 的金融服务公司在 2022 年至 2023 年期间增加了合规支出，其中大多数将此归咎于新法规。如今，合规…

王浩然
2024年9月8日
000
AI前沿

波士顿动力公司与 TRI 合作，为 Atlas 人形机器人带来人工智能

波士顿动力公司和丰田研究所 (TRI) 周三宣布，计划将基于人工智能的机器人智能引入电动 Atlas 人形机器人。此次合作将利用 TRI 在大型行为模型 (LBM) 方面所做的工作…

王浩然
2024年10月17日
000
AI前沿

全球最大人工智能数据中心计划落户韩国

数据中心项目预计初始年收入将达到 35 亿美元，总价值有望达到 350 亿美元 LG 电子创始家族成员 Brian Koo 与韩国政府合作，打造了全球最大的人工智能数据中心。韩国…

王浩然
2025年2月19日
000
AI前沿

Figure将于2025年启动家用仿人机器人Alpha测试‌

创新科技公司Figure近日宣布，计划在2025年正式启动其家用仿人机器人的Alpha测试阶段。这一举措标志着Figure在智能机器人领域迈出了重要一步。 ‌一、项目背景‌ 随着人…

王浩然
2025年3月2日
000
AI前沿

ChatGPT更聪明了：OpenAI引入内部数据引用功能‌

在人工智能领域，ChatGPT作为一款大型语言模型（LLM），自推出以来就以其强大的自然语言处理能力和广泛的应用场景而备受瞩目。为了进一步提升ChatGPT的智能化水平，OpenA…

王浩然
6天前
000
AI前沿

Gartner：2025 年十大战略技术趋势

本周，在奥兰多举行的年度 IT 研讨会/Xpo 上，Gartner 公布了 2025 年十大战略技术趋势，人工智能、物联网技术和量子计算的进步均榜上有名。该活动在天鹅…

点点
2024年10月22日
000
AI前沿

o1核心作者MIT演讲：激励AI自我学习，比试图教会AI每一项任务更重要

“o1发布后，一个新的范式产生了”。其中关键，OpenAI研究科学家、o1核心贡献者Hyung Won Chung，刚刚就此分享了他在MIT的一次演讲。演讲主题为“Don’t …

点点
2024年9月20日
000
AI前沿

“未来的你”人工智能让你遇见未来的自己

该系统使用大型语言模型，根据信息生成可关联的虚拟版本

点点
2024年10月8日
000