小模型，大影响：Patronus AI 的 Glider 在关键 AI 评估任务中表现优于 GPT-4

王浩然 • 2024年12月20日下午5:00 • AI前沿 • 82 views

一家由前 Meta AI 研究人员创立的初创公司开发了一种轻量级 AI 模型，该模型可以像更大的模型一样有效地评估其他 AI 系统，同时为其决策提供详细的解释。

Patronus AI今天发布了Glider，这是一个拥有 38 亿个参数的开源语言模型，在评判 AI 输出的几个关键基准上均优于 OpenAI 的GPT-4o-mini。该模型旨在充当自动评估器，可以评估 AI 系统在数百种不同标准下的响应，同时解释其推理。

Patronus AI 首席执行官兼联合创始人 Anand Kannappan 在接受采访时表示：“Patronus 所做的一切都致力于为开发人员和任何使用语言模型或开发新 LM 系统的人提供强大而可靠的 AI 评估。”

小而强大：Glider 如何匹敌 GPT-4 的性能

这项进展代表了人工智能评估技术的重大突破。目前，大多数公司都依赖 GPT-4 等大型专有模型来评估其人工智能系统，而这一过程可能成本高昂且不透明。Glider 不仅由于体积小而更具成本效益，而且还通过要点推理和突出显示的文本跨度为其判断提供详细解释，准确显示影响其决策的因素。

“目前我们有许多法学硕士担任评委，但我们不知道哪一个最适合我们的任务，”领导该项目的 Patronus AI 研究工程师 Darshan Deshpande 解释道。“在本文中，我们展示了几项进展：我们训练了一个可以在设备上运行的模型，仅使用 38 亿个参数，并提供高质量的推理链。”

实时评估：速度与准确性的结合

新模型表明，较小的语言模型在执行专门任务时可以匹敌甚至超越较大的语言模型。Glider 的性能可与 17 倍于其大小的模型相媲美，同时运行时延迟仅为一秒。这使得它适用于实时应用，在此类应用中，公司需要在生成 AI 输出时对其进行评估。

Glider 的一项关键创新是能够同时评估 AI 输出的多个方面。该模型可以同时评估准确性、安全性、连贯性和语调等因素，而无需进行单独的评估。尽管主要使用英语数据进行训练，但它仍保留了强大的多语言能力。

“当你处理实时环境时，你需要尽可能降低延迟，”Kannappan 解释道。“这种模型通常在一秒内就能做出响应，尤其是通过我们的产品使用时。”

隐私第一：设备上的人工智能评估成为现实

对于开发 AI 系统的公司来说，Glider 具有多项实用优势。其体积小巧，可以直接在消费级硬件上运行，解决了向外部 API 发送数据时可能产生的隐私问题。其开源特性允许组织将其部署在自己的基础设施上，同时根据特定需求进行定制。

该模型针对 685 个领域的 183 个不同的评估指标进行了训练，从准确性和连贯性等基本因素到创造力和道德考量等更细微的方面。这种广泛的训练有助于将其推广到许多不同类型的评估任务。

“客户需要设备上的模型，因为他们无法将自己的私人数据发送给 OpenAI 或 Anthropic，”Deshpande 解释道。“我们还想证明小型语言模型可以成为有效的评估器。”

此次发布正值各公司越来越注重通过强有力的评估和监督来确保负责任的 AI 开发之际。Glider 能够为其判断提供详细的解释，这可以帮助组织更好地理解和改进其 AI 系统的行为。

人工智能评估的未来：更小、更快、更智能

Patronus AI 由Meta AI和Meta Reality Labs的机器学习专家创立，将自己定位为 AI 评估技术的领导者。该公司提供了一个用于大型语言模型的自动测试和安全性的平台，Glider 是其最新进展，使复杂的 AI 评估更容易实现。

该公司计划今天在 arxiv.org 上发布有关 Glider 的详细技术研究，展示其在各种基准测试中的表现。早期测试表明，它在几个标准指标上取得了最先进的结果，同时提供了比现有解决方案更透明的解释。

“我们才刚刚起步，”卡纳潘说道。“随着时间的推移，我们预计会有更多开发商和公司在这些领域开拓新领域。”

Glider 的发展表明，未来的人工智能系统可能并不一定需要更大的模型，而是需要针对特定任务进行优化的更专业、更高效的模型。Glider 在匹配大型模型性能的同时提供更好的可解释性，这可能会影响公司未来对人工智能的评估和开发方式。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/xiao-mo-xing-da-ying-xiang-patronus-ai-de-glider-zai-guan

Glider GPT-4o-mini Meta AI OpenAI Patronus AI

Like (0)

王浩然作者

0 0

Stable Diffusion 3.5 登陆 Amazon Bedrock：这对企业 AI 工作流程意味着什么

Previous 2024年12月20日

超越法学硕士：SandboxAQ 的大型量化模型如何优化企业 AI

Next 2024年12月20日

AI前沿

包容性治理：生成式人工智能如何让公共服务惠及所有人

尽管公共部门随着技术进步而不断发展，但其核心目标始终不变：确保所有公民，无论其社会经济地位、身体能力或地理位置如何，都能平等地获得公共服务。这一目标通常被称为包容性治理，它促使该部…

点点
2024年9月4日
000
AI前沿

微软声称其新工具可以纠正人工智能幻觉，但专家建议谨慎行事

人工智能是出了名的骗子，但微软现在表示已经解决了这个问题。可以理解的是，这会引起一些人的关注——而且有理由持怀疑态度。微软今天发布了一项服务，名为 Correction，旨在自动…

王浩然
2024年9月25日
000
AI前沿

据消息人士称，Grok 的图像生成器 Black Forest Labs 正在以 10 亿美元的估值融资 1 亿美元

尽管 OpenAI 正在寻求另一轮巨额融资，但它并没有抢走所有风口：构建有前景的基础模型的 AI 初创公司仍然可以打开大门和支票簿。多位消息人士告诉我们，Black Forest …

王浩然
2024年9月21日
000
AI前沿

使用生成式人工智能进行 SEO 的 12 种方法

生成式人工智能 (GenAI) 的兴起正在改变数字营销人员处理搜索引擎优化 (SEO) 的方式。GenAI 驱动的工具正在帮助企业提高搜索排名并比以往更有效地推动自然流量。根据se…

王浩然
2024年10月20日
000
AI前沿

企业如何评估和选择AI工具

1. **明确问题与需求**：在考虑采用新的AI系统前，企业应先明确自身面临的问题、关键挑战和核心需求。只有当AI技术能解决公司已有的、可衡量的问题时，才值得进一步探索。 2. *…

王浩然
2025年2月11日
000
AI前沿

Arcee AI 推出 SuperNova：一种可定制、符合指令的企业模型

Arcee AI今天推出了SuperNova，这是一个专为企业部署而设计的 700 亿参数语言模型，具有先进的指令跟踪功能和完整的自定义选项。该模型旨在为 OpenAI 和 Ant…

王浩然
2024年9月17日
000
AI前沿

利用 GenNext AI 赋能科技人才：改变技术的未来

科技行业不断发展，其驱动力是创新步伐的不断加快和对创新解决方案日益增长的需求。在这种动态环境中，GenNext AI 成为科技爱好者和专业人士赋能的灯塔。通过提供先进的工具、个性化…

wang, jinchang
2024年10月4日
000
AI前沿

DuckDuckGo进一步拥抱GenAI，其AI聊天界面正式脱离测试阶段‌

在人工智能技术日新月异的今天，搜索引擎巨头DuckDuckGo宣布其基于GenAI（通用人工智能）技术打造的聊天界面已正式脱离测试阶段，迈向全面应用。这一重大进展标志着DuckDu…

王浩然
2025年3月7日
000
AI前沿

AWS 失去了一位顶级人工智能高管

上周，AWS 失去了一位顶级 AI 高管。人工智能副总裁 Matt Wood宣布，他将在 AWS 任职 15 年后离职。Wood 长期参与亚马逊部门的人工智能计划；他于 2022…

点点
2024年10月19日
000
AI前沿

OpenAI 推出全新“Canvas”ChatGPT 界面，专门针对写作和编码项目

OpenAI 周四推出了一种与 ChatGPT 交互的新方式：一种被它称为“画布”的界面。该产品在普通聊天窗口旁边打开一个单独的窗口，其中包含用于编写和编码项目的工作区。用户可以直…

王浩然
2024年10月6日
000
AI前沿

EDR 中的人机合作：利用人工智能增强网络安全团队

随着网络攻击越来越频繁和复杂，公司难以跟上。技术精湛的安全团队日夜工作，以发现和阻止数字入侵者，但这往往让人觉得是一场必败之战。黑客似乎总是占上风。然而，隧道尽头还是有曙光的。新…

点点
2024年10月5日
000
AI前沿

从风险到实时欺诈检测：SOC的新前沿

随着科技的飞速发展，企业面临的安全威胁日益复杂多变。其中，欺诈行为已悄然升级，超过40%的企业欺诈活动如今由AI驱动，这些欺诈行为能够模拟真实用户行为，绕过传统防御机制，并以惊人的…

王浩然
1天前
000
AI前沿

Meta的Vanilla Maverick AI模型在热门聊天基准测试中排名落后

在人工智能领域，每一次基准测试的发布都如同一次没有硝烟的战争，各大科技巨头纷纷亮出自己的杀手锏，以期在排行榜上占据一席之地。近日，一项针对聊天机器人性能的基准测试结果揭晓，Meta…

王浩然
15小时前
000
AI前沿

本周来自网络的精彩科技故事

人工智能 OpenAI 升级其最智能的 AI 模型，提升推理能力Will Knight | Wired“OpenAI 表示，o3 模型在多个指标上的得分都远高于其前身，包括衡量复杂…

王浩然
2024年12月30日
000
AI前沿

2024 年第三季度对生成式 AI 初创企业的投资超过 39 亿美元

并非所有人都相信生成式人工智能的投资回报。但根据资金追踪机构 PitchBook 的最新数据，许多投资者都相信这一点。根据 PitchBook 的数据，2024 年第三季度，风险…

点点
2024年10月21日
000
AI前沿

DeepSeek：全面解析这款AI聊天机器人应用

在人工智能飞速发展的今天，一款名为DeepSeek的AI聊天机器人应用正悄然改变着人机交互的方式。DeepSeek凭借其强大的自然语言处理能力、个性化的交互体验以及丰富的功能，迅速…

王浩然
2025年3月3日
000
AI前沿

Pryon CEO Igor Jablokov访谈：揭秘AI企业巨头的崛起之路

Igor Jablokov，这个名字在AI界可谓是响当当。作为Pryon的掌舵人，他以其独特的视野和卓越的领导力，带领公司在竞争激烈的AI市场中脱颖而出。

点点
2024年9月7日
000
AI前沿

平台工程：简化现代软件开发

随着我们加速迈向工业 4.0，数字化转型以前所未有的水平重塑了企业。如今，组织面临着更快、更可靠、更大规模地交付软件的巨大压力。云环境的日益复杂以及对无摩擦客户体验的需求不断增加…

点点
2024年11月5日
000
AI前沿

为什么微软的安全计划和苹果的云隐私现在对企业如此重要

随着网络威胁越来越自动化和恶意化，保护企业数据和隐私变得前所未有的困难。Apple和Microsoft的新安全计划利用其核心云安全和隐私优势来弥补安全漏洞并降低每家企业的风险。微…

王浩然
2024年9月30日
000
AI前沿

Uplimit：以AI赋能企业培训，同时培训千名员工

在数字化时代，企业面临着前所未有的挑战和机遇。为了保持竞争力，企业必须不断提升员工的技能和知识。然而，传统的企业培训方式往往效率低下，难以满足大规模、快速培训的需求。近日，Upli…

王浩然
2025年4月4日
000