AI谎言探测器：HallOumi的开源幻觉检测方法如何解锁企业AI应用

王浩然 • 5天前 • AI前沿 • 62 views

在推动企业AI部署的竞赛中，一个长期存在的障碍始终阻碍着前进的步伐：幻觉。这些由AI系统产生的虚假响应，已经导致了一系列问题，从律师面临的法律制裁到公司被迫遵守虚构的政策。为了解决这一幻觉挑战，组织尝试了多种方法，包括使用更好的数据进行微调、检索增强生成（RAG）以及设置防护栏。现在，开源开发公司Oumi提出了一种新方法，尽管其名字听起来有些“俏皮”。

HallOumi：开源的幻觉检测模型

Oumi公司，其名源自Open Universal Machine Intelligence（开放通用机器智能）的缩写，由前苹果和谷歌工程师领导，致力于构建一个完全开源的AI平台。2025年4月2日，该公司发布了HallOumi，一个开源的主张验证模型，旨在通过一种新颖的幻觉检测方法解决准确性问题。

HallOumi逐句分析AI生成的内容。该系统接收源文档和AI响应，然后确定源材料是否支持响应中的每个主张。“HallOumi独立分析每个句子，”Oumi的CEO Manos Koukoumidis解释说，“对于它分析的每个句子，它都会告诉你应该检查输入文档中的哪些具体句子，这样你就不需要阅读整个文档来验证大型语言模型（LLM）所说的话是否准确。”

对于每个分析的句子，该模型提供三个关键输出：表示幻觉可能性的置信度分数、将主张与支持证据相链接的具体引用，以及详细解释主张为何得到支持或不支持的人类可读解释。

HallOumi如何工作

HallOumi的设计初衷是为了解决企业在部署生成式AI时面临的信任问题。“幻觉经常被列为部署生成式模型时最关键的挑战之一，”Koukoumidis告诉VentureBeat，“这最终归结为信任问题——生成式模型被训练来产生概率上可能但不一定真实的输出。”

通过逐句分析，HallOumi能够识别出AI响应中的潜在幻觉，并提供详细的证据和解释来支持其判断。这种方法不仅有助于提高AI生成的准确性，还能增强用户对AI系统的信任。

HallOumi在企业AI工作流程中的集成

企业可以通过多种方式使用和集成HallOumi。一种选择是使用手动过程来测试模型，尽管在线演示界面提供了更便捷的方式。然而，对于生产环境和企业AI工作流程来说，API驱动的方法将更为理想。

HallOumi是完全开源的，可以插入现有工作流程中，在本地或云端运行，并与任何LLM一起使用。企业只需将原始上下文和LLM的响应提供给HallOumi，它就可以验证输出，从而帮助检测和预防AI生成内容中的幻觉。

Oumi已经发布了两个版本：一个提供详细分析的生成式8B模型和一个仅提供分数但计算效率更高的分类器模型。

HallOumi与其他方法的比较

与其他幻觉保护方法相比，HallOumi的独特之处在于它补充而不是替代现有技术，如RAG，同时提供了比典型防护栏更详细的分析。RAG旨在通过提供相关上下文来改进生成，而HallOumi则在生成后验证输出，无论上下文是如何获得的。

与防护栏相比，HallOumi提供了超越二进制验证的信息。其句子级别的分析、置信度分数和解释使用户能够详细了解幻觉发生的位置和方式。此外，HallOumi还能够检测不仅仅是偶然的幻觉，还有故意的错误信息。

HallOumi对企业AI采用的意义

对于希望在AI采用方面领先的企业来说，HallOumi提供了一个可能至关重要的工具，用于在生产环境中安全地部署生成式AI系统。“我真的希望这能解锁许多场景，”Koukoumidis说，“许多企业无法信任他们的模型，因为现有的实现方式不够符合人体工程学或效率低下。我希望HallOumi能使他们信任自己的LLM，因为他们现在有了建立所需信心的东西。”

对于AI采用步伐较慢的企业来说，HallOumi的开源性质意味着它们现在可以进行技术实验，而Oumi则根据需要提供商业支持选项。“如果任何公司想要更好地将HallOumi定制到他们的领域，或者有特定的商业使用方式，我们总是很乐意帮助他们开发解决方案，”Koukoumidis补充说。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ai-huang-yan-tan-ce-qi-halloumi-de-kai-yuan-huan-jue-jian

Like (0)

王浩然作者

0 0

Anthropic重塑教育AI：Claude学习模式让学生主动思考

Previous 5天前

美国运通如何利用AI提升效率：IT问题升级减少40%，旅行援助提升85%‌

Next 5天前

AI前沿

OpenAI 不会消失：估值 1570 亿美元，融资 66 亿美元

尽管近几个月来高管离职潮不断，OpenAI 今天仍宣布了预期的新一轮融资。人们一直预计这笔投资会非常庞大，但据Axios报道，它筹集的资金——公司总估值 1570 亿美元，筹…

王浩然
2024年10月4日
000
AI前沿

从 AI 代理到企业预算，20 家风险投资公司分享了他们对 2025 年企业技术的预测

尽管人工智能被一些人誉为工业革命以来最大的技术突破，但企业——可以说是该技术最大的潜在客户群——采用人工智能的速度却很慢。尽管一些投资者预测 2024 年将是企业开始采用更多 A…

王浩然
2024年12月31日
000
AI前沿

人工智能人形机器人公司融资 3.5 亿美元

此轮融资由 B Capital 和 Capital Factory 联合领投，谷歌也参与其中人形机器人开发商 Apptronik 已筹集 3.5 亿美元，用于大规模开发和部署人…

王浩然
2025年2月19日
000
AI前沿

Google Imagen 3 与竞争对手：文本转图像模型的新基准

人工智能 (AI)正在改变我们创建视觉效果的方式。文本转图像模型让我们能够非常轻松地从简单的文本描述生成高质量的图像。广告、娱乐、艺术和设计等行业已经采用这些模型来探索新的创意可能…

点点
2024年10月16日
000
AI前沿

能够从零开始设计生命机器的人工智能度过了重要的一年。接下来会发生什么呢？

蛋白质是生物的分子机器。它们是我们身体的建造者——制造肌肉、骨骼和大脑；调节器——控制系统；以及本地互联网——负责在细胞和区域之间传递信息。总之，蛋白质对我们的生存至关重要。当它们…

王浩然
2024年12月30日
000
AI前沿

Devin 2.0震撼发布：Cognition将AI软件工程师价格从每月500美元大幅降至20美元‌

在科技创新日新月异的今天，由知名风投机构Founders Fund支持的旧金山初创公司Cognition AI（亦称Cognition Labs），自2024年初凭借Devin——…

王浩然
6天前
000
AI前沿

Mach9 为基础设施运营商提供更好的信息

清洁的水、安全的道路、可访问的宽带和电力：这些东西都不是理所当然的。它们依赖于庞大的基础设施网络，这些网络需要不断维护和改进才能正常运转。美国在这方面表现糟糕。美国土木工程师学会 …

王浩然
2024年11月16日
000
AI前沿

Nvidia 推出 Omniverse 实时物理数字孪生

Nvidia 宣布了其 Nvidia Omniverse Blueprint，这是一项使行业软件开发人员能够构建具有逼真的实时物理特性的数字孪生技术。它使航空航天、汽车、制造、能…

王浩然
2024年11月20日
000
AI前沿

AI先驱因强化学习研究荣获图灵奖‌

在人工智能领域，一项至高无上的荣誉近日揭晓——几位在强化学习领域取得卓越成就的AI先驱荣获了图灵奖。这一奖项不仅是对他们个人才华和贡献的认可，更是对整个强化学习社区乃至整个AI领域…

王浩然
2025年3月8日
000
AI前沿

Perplexity 与Carbon 的集成将使企业更容易将其数据连接到 AI 搜索

2024 年是Perplexity辉煌的一年。这家由前 DeepMind 和 OpenAI 研究员 Aravind Srinivas 创立的人工智能搜索初创公司筹集了数亿美元——据…

王浩然
2024年12月21日
000
AI前沿

OpenAI 启动 ChatGPT 项目，让你可以组织文件、分组聊天

OpenAI最新发布的 ChatGPT 项目解决了在 ChatGPT 上组织文件和对话的需求。该功能类似于谷歌流行的NotebookLM应用程序。在“OpenAI 12 天”直…

王浩然
2024年12月16日
000
AI前沿

呼吁人工智能平台适度引入拟人化

观点：在虚构的《星球大战》宇宙中，没有人认真对待人工智能。在乔治·卢卡斯 47 年前的科幻系列电影中，人类历史时间轴上不存在来自奇点和机器学习意识的威胁，人工智能仅限于自主移动机器…

点点
2024年10月15日
000
AI前沿

Anthropic 推出全新 Claude AI 模型和“计算机控制”

Anthropic宣布升级其 AI 产品组合，包括增强型 Claude 3.5 Sonnet 模型和推出 Claude 3.5 Haiku，同时在公开测试版中推出“计算机控制”功能…

点点
2024年10月24日
000
AI前沿

Stability AI 发布迄今为止最强大的图像生成模型

Stability AI宣布发布Stable Diffusion 3.5，标志着开源AI图像生成模型的一次飞跃。 Stability AI 的最新模型包括多种变体，旨在满足从业余爱…

点点
2024年10月24日
000
AI前沿

人工智能阅读教练初创公司 Ello 现在让孩子们创作自己的故事

Ello是一款旨在帮助阅读困难儿童的人工智能阅读伴侣，它于周一推出了一款新产品，让孩子们可以参与故事创作过程。这项名为“Storytime”的人工智能新功能可以帮助孩子们从一系…

王浩然
2024年10月1日
000
AI前沿

NaNoWriMo 拒绝谴责人工智能写作工具，引发争议

随着秋季的临近，有抱负的小说家们纷纷腾出时间参加美国小说写作月 (NaNoWriMo)，这是一项国际创意写作活动，参与者需要在 11 月期间撰写 50,000 字的手稿。该活动自 …

点点
2024年9月11日
000
AI前沿

专家观点：人工智能尚未准备好成为科研合作者‌

随着人工智能技术的飞速发展，关于AI能否胜任科研合作者角色的讨论日益激烈。然而，近期一项调查结果显示，多数专家对此持保留态度，他们认为人工智能目前尚未准备好成为真正的科研合作者。 …

王浩然
2025年3月6日
000
AI前沿

为什么 ChatGPT 的数学这么差？

如果你曾经尝试将 ChatGPT 用作计算器，你几乎肯定会注意到它的计算障碍：聊天机器人数学不好。在这方面，它并不是 AI 中独一无二的。 Anthropic 的Claude无法解…

王浩然
2024年10月3日
000
AI前沿

Augmented Intelligence 声称其 AI 可以让聊天机器人更有用

OpenAI 的 o1 等 AI 模型的核心是神经网络架构，而这种架构的替代方案正大行其道。这种方案被称为符号 AI，它使用与特定任务（如重写文本行）相关的规则来解决更大的问题。 …

wang, jinchang
2024年10月2日
000
AI前沿

随着数据中心使用率不断上升，Submer 筹集 5550 万美元以降低数据中心温度

人们竞相开发更好的芯片和数据中心容量来处理 AI 工作负载，但所有这些活动都存在一个问题。强大的处理能力意味着会产生大量热量，这对服务器的运行和环境都有重大影响。由于…

王浩然
2024年10月5日
000