
在推动企业AI部署的竞赛中,一个长期存在的障碍始终阻碍着前进的步伐:幻觉。这些由AI系统产生的虚假响应,已经导致了一系列问题,从律师面临的法律制裁到公司被迫遵守虚构的政策。为了解决这一幻觉挑战,组织尝试了多种方法,包括使用更好的数据进行微调、检索增强生成(RAG)以及设置防护栏。现在,开源开发公司Oumi提出了一种新方法,尽管其名字听起来有些“俏皮”。
HallOumi:开源的幻觉检测模型
Oumi公司,其名源自Open Universal Machine Intelligence(开放通用机器智能)的缩写,由前苹果和谷歌工程师领导,致力于构建一个完全开源的AI平台。2025年4月2日,该公司发布了HallOumi,一个开源的主张验证模型,旨在通过一种新颖的幻觉检测方法解决准确性问题。
HallOumi逐句分析AI生成的内容。该系统接收源文档和AI响应,然后确定源材料是否支持响应中的每个主张。“HallOumi独立分析每个句子,”Oumi的CEO Manos Koukoumidis解释说,“对于它分析的每个句子,它都会告诉你应该检查输入文档中的哪些具体句子,这样你就不需要阅读整个文档来验证大型语言模型(LLM)所说的话是否准确。”
对于每个分析的句子,该模型提供三个关键输出:表示幻觉可能性的置信度分数、将主张与支持证据相链接的具体引用,以及详细解释主张为何得到支持或不支持的人类可读解释。
HallOumi如何工作
HallOumi的设计初衷是为了解决企业在部署生成式AI时面临的信任问题。“幻觉经常被列为部署生成式模型时最关键的挑战之一,”Koukoumidis告诉VentureBeat,“这最终归结为信任问题——生成式模型被训练来产生概率上可能但不一定真实的输出。”
通过逐句分析,HallOumi能够识别出AI响应中的潜在幻觉,并提供详细的证据和解释来支持其判断。这种方法不仅有助于提高AI生成的准确性,还能增强用户对AI系统的信任。
HallOumi在企业AI工作流程中的集成
企业可以通过多种方式使用和集成HallOumi。一种选择是使用手动过程来测试模型,尽管在线演示界面提供了更便捷的方式。然而,对于生产环境和企业AI工作流程来说,API驱动的方法将更为理想。
HallOumi是完全开源的,可以插入现有工作流程中,在本地或云端运行,并与任何LLM一起使用。企业只需将原始上下文和LLM的响应提供给HallOumi,它就可以验证输出,从而帮助检测和预防AI生成内容中的幻觉。
Oumi已经发布了两个版本:一个提供详细分析的生成式8B模型和一个仅提供分数但计算效率更高的分类器模型。
HallOumi与其他方法的比较
与其他幻觉保护方法相比,HallOumi的独特之处在于它补充而不是替代现有技术,如RAG,同时提供了比典型防护栏更详细的分析。RAG旨在通过提供相关上下文来改进生成,而HallOumi则在生成后验证输出,无论上下文是如何获得的。
与防护栏相比,HallOumi提供了超越二进制验证的信息。其句子级别的分析、置信度分数和解释使用户能够详细了解幻觉发生的位置和方式。此外,HallOumi还能够检测不仅仅是偶然的幻觉,还有故意的错误信息。
HallOumi对企业AI采用的意义
对于希望在AI采用方面领先的企业来说,HallOumi提供了一个可能至关重要的工具,用于在生产环境中安全地部署生成式AI系统。“我真的希望这能解锁许多场景,”Koukoumidis说,“许多企业无法信任他们的模型,因为现有的实现方式不够符合人体工程学或效率低下。我希望HallOumi能使他们信任自己的LLM,因为他们现在有了建立所需信心的东西。”
对于AI采用步伐较慢的企业来说,HallOumi的开源性质意味着它们现在可以进行技术实验,而Oumi则根据需要提供商业支持选项。“如果任何公司想要更好地将HallOumi定制到他们的领域,或者有特定的商业使用方式,我们总是很乐意帮助他们开发解决方案,”Koukoumidis补充说。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai-huang-yan-tan-ce-qi-halloumi-de-kai-yuan-huan-jue-jian