一家由前 Meta AI 研究人员创立的初创公司开发了一种轻量级 AI 模型,该模型可以像更大的模型一样有效地评估其他 AI 系统,同时为其决策提供详细的解释。
Patronus AI今天发布了Glider,这是一个拥有 38 亿个参数的开源语言模型,在评判 AI 输出的几个关键基准上均优于 OpenAI 的GPT-4o-mini。该模型旨在充当自动评估器,可以评估 AI 系统在数百种不同标准下的响应,同时解释其推理。
Patronus AI 首席执行官兼联合创始人 Anand Kannappan 在接受采访时表示:“Patronus 所做的一切都致力于为开发人员和任何使用语言模型或开发新 LM 系统的人提供强大而可靠的 AI 评估。”
小而强大:Glider 如何匹敌 GPT-4 的性能
这项进展代表了人工智能评估技术的重大突破。目前,大多数公司都依赖 GPT-4 等大型专有模型来评估其人工智能系统,而这一过程可能成本高昂且不透明。Glider 不仅由于体积小而更具成本效益,而且还通过要点推理和突出显示的文本跨度为其判断提供详细解释,准确显示影响其决策的因素。
“目前我们有许多法学硕士担任评委,但我们不知道哪一个最适合我们的任务,”领导该项目的 Patronus AI 研究工程师 Darshan Deshpande 解释道。“在本文中,我们展示了几项进展:我们训练了一个可以在设备上运行的模型,仅使用 38 亿个参数,并提供高质量的推理链。”
实时评估:速度与准确性的结合
新模型表明,较小的语言模型在执行专门任务时可以匹敌甚至超越较大的语言模型。Glider 的性能可与 17 倍于其大小的模型相媲美,同时运行时延迟仅为一秒。这使得它适用于实时应用,在此类应用中,公司需要在生成 AI 输出时对其进行评估。
Glider 的一项关键创新是能够同时评估 AI 输出的多个方面。该模型可以同时评估准确性、安全性、连贯性和语调等因素,而无需进行单独的评估。尽管主要使用英语数据进行训练,但它仍保留了强大的多语言能力。
“当你处理实时环境时,你需要尽可能降低延迟,”Kannappan 解释道。“这种模型通常在一秒内就能做出响应,尤其是通过我们的产品使用时。”
隐私第一:设备上的人工智能评估成为现实
对于开发 AI 系统的公司来说,Glider 具有多项实用优势。其体积小巧,可以直接在消费级硬件上运行,解决了向外部 API 发送数据时可能产生的隐私问题。其开源特性允许组织将其部署在自己的基础设施上,同时根据特定需求进行定制。
该模型针对 685 个领域的 183 个不同的评估指标进行了训练,从准确性和连贯性等基本因素到创造力和道德考量等更细微的方面。这种广泛的训练有助于将其推广到许多不同类型的评估任务。
“客户需要设备上的模型,因为他们无法将自己的私人数据发送给 OpenAI 或 Anthropic,”Deshpande 解释道。“我们还想证明小型语言模型可以成为有效的评估器。”
此次发布正值各公司越来越注重通过强有力的评估和监督来确保负责任的 AI 开发之际。Glider 能够为其判断提供详细的解释,这可以帮助组织更好地理解和改进其 AI 系统的行为。
人工智能评估的未来:更小、更快、更智能
Patronus AI 由Meta AI和Meta Reality Labs的机器学习专家创立,将自己定位为 AI 评估技术的领导者。该公司提供了一个用于大型语言模型的自动测试和安全性的平台,Glider 是其最新进展,使复杂的 AI 评估更容易实现。
该公司计划今天在 arxiv.org 上发布有关 Glider 的详细技术研究,展示其在各种基准测试中的表现。早期测试表明,它在几个标准指标上取得了最先进的结果,同时提供了比现有解决方案更透明的解释。
“我们才刚刚起步,”卡纳潘说道。“随着时间的推移,我们预计会有更多开发商和公司在这些领域开拓新领域。”
Glider 的发展表明,未来的人工智能系统可能并不一定需要更大的模型,而是需要针对特定任务进行优化的更专业、更高效的模型。Glider 在匹配大型模型性能的同时提供更好的可解释性,这可能会影响公司未来对人工智能的评估和开发方式。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xiao-mo-xing-da-ying-xiang-patronus-ai-de-glider-zai-guan