客服聊天机器人自信地描述一款并不存在的产品。金融人工智能编造市场数据。医疗保健机器人提供危险的医疗建议。这些人工智能幻觉曾被视为有趣的怪癖,但如今已成为急于部署人工智能的公司面临的数百万美元问题。
今天,旧金山初创公司Patronus AI推出了所谓的首个自助平台,用于实时检测和预防人工智能故障。Patronus AI 是一家刚刚获得1700 万美元A 轮融资的初创公司。你可以将其视为人工智能系统的复杂拼写检查器,在错误到达用户之前将其捕获。
人工智能安全网内部:其工作原理
Patronus AI 首席执行官 Anand Kannappan 在接受 VentureBeat 采访时表示:“许多公司都在努力应对生产过程中的 AI 故障,面临幻觉、安全漏洞和不可预测的行为等问题。”风险很高:该公司最近的研究发现,GPT-4 等领先的 AI 模型在提示时有 44% 的时间会复制受版权保护的内容,而即使是先进的模型也会在超过 20% 的基本安全测试中产生不安全的响应。
时机至关重要。随着各家公司争相实施生成式人工智能功能(从客户服务聊天机器人到内容生成系统),他们发现现有的安全措施存在不足。目前的评估工具(如 Meta 的LlamaGuard)的准确率低于 50%,与抛硬币的结果差不多。
Patronus AI 的解决方案引入了多项创新,可能会重塑企业部署 AI 的方式。其中最重要的或许是其“评判评估者”功能,该功能允许企业以通俗易懂的英语创建自定义规则。
Patronus AI 的产品负责人 Varun Joshi 说:“您可以自定义评估以准确满足您的产品需求。”“我们让客户用英语写出他们想要评估和检查的内容。”金融服务公司可能会指定有关监管合规性的规则,而医疗保健提供商可以专注于患者隐私和医疗准确性。
从检测到预防:技术突破
该系统的基础是Lynx,这是一种突破性的幻觉检测模型,在检测医疗错误方面比GPT-4 高出8.3%。该平台以两种速度运行:用于实时监控的快速响应版本和用于更深入分析的更彻底的版本。“小型版本可用于实时护栏,大型版本可能更适合离线分析,”Joshi 表示。
除了传统的错误检查之外,该公司还开发了专门的工具,例如CopyrightCatcher,它可以检测 AI 系统何时复制受保护的内容,以及FinanceBench,这是业界首个用于评估 AI 在金融问题上的表现的基准。这些工具与 Lynx 协同工作,可以全面防范 AI 故障。
超越简单的护栏:重塑人工智能安全
该公司采用了按使用量付费的定价模式,小型评估器每 1000 次 API 调用起价为 10 美元,大型评估器每 1000 次 API 调用起价为 20 美元。这种定价结构可以大大增加 AI 安全工具的使用范围,使以前无法负担复杂 AI 监控的初创公司和小型企业能够使用这些工具。
早期采用表明,大型企业将人工智能安全视为一项关键投资,而不仅仅是一项可有可无的功能。该公司已经吸引了惠普、AngelList和Pearson等客户,并与Nvidia、MongoDB和IBM等科技巨头建立了合作伙伴关系。
Patronus AI 的与众不同之处在于它专注于改进而不仅仅是检测。“我们实际上可以突出显示幻觉所在的特定文本的跨度,”Kannappan 解释道。这种精确度使工程师能够快速识别和修复问题,而不仅仅是知道出了什么问题。
与人工智能幻觉的竞赛
此次发布正值人工智能发展的关键时刻。随着GPT-4和Claude等大型语言模型变得越来越强大和广泛应用,人工智能失败的风险也相应增大。产生幻觉的人工智能系统可能会让公司承担法律责任、损害客户信任,甚至更糟。
最近的监管举措,包括拜登总统的人工智能行政命令和欧盟的人工智能法案,表明公司将很快面临法律要求,以确保其人工智能系统安全可靠。像 Patronus AI 平台这样的工具可能成为合规的关键。
Joshi 强调说:“良好的评估不仅仅是为了防止出现不良结果,它还深刻地改善了你的模型和产品。”这一理念反映了人工智能安全方法的成熟,从简单的护栏转向持续改进。
对守护神 AI 的真正考验不仅仅是发现错误——它还将跟上 AI 飞速发展的步伐。随着语言模型变得越来越复杂,它们的幻觉可能越来越难以发现,就像发现越来越令人信服的伪造品一样。
风险再高不过了。每当人工智能系统捏造事实、推荐危险的治疗方法或生成受版权保护的内容时,它都会削弱这些工具改变业务所需的信任。如果没有可靠的护栏,人工智能革命就有可能在真正开始之前就失败。
最后,这是一个简单的事实:如果人工智能不能停止捏造事物,那么最终付出代价的可能是人类。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/patronus-ai-tui-chu-quan-qiu-shou-ge-zi-zhu-fu-wu-api-zhi