Google 的 DataGemma AI 是统计向导

Google 的 DataGemma AI 是统计向导

谷歌正在扩大其 AI 模型系列,同时解决该领域的一些最大问题。今天,该公司推出了 DataGemma,这是一对开源的、指令调整的模型,它们朝着缓解幻觉挑战迈出了一步——大型语言模型 (LLM) 倾向于在围绕统计数据的查询中提供不准确的答案。

这两个新模型都可以在Hugging Face上用于学术和研究,它们以现有的Gemma 系列开放模型为基础,并使用来自 Google 创建的Data Commons平台的大量真实数据来提供答案。该公共平台提供了一个开放的知识图谱,其中包含来自经济、科学、健康和其他领域的可信组织的超过 2400 亿个数据点。

这些模型使用两种不同的方法来提高回答用户问题的事实准确性。这两种方法在涵盖各种查询的测试中都证明相当有效。

事实幻觉的答案 

LLM 是我们所有人都需要的技术突破。尽管这些模型只有几年的历史,但它们已经为从代码生成到客户支持的一系列应用程序提供支持,并为企业节省了宝贵的时间/资源。然而,即使在取得所有进展之后,模型在处理与数字和统计数据或其他及时事实有关的问题时产生幻觉的倾向仍然是一个问题。 

谷歌研究人员在今天发表的一篇论文中写道:  “研究人员已经确定了导致这些现象的几个原因,包括 LLM 生成的根本概率性质以及训练数据中缺乏足够的事实覆盖。”

即使是传统的基础方法对于统计查询也不是很有效,因为它们涵盖了一系列逻辑、算术或比较运算。公共统计数据分布在各种各样的模式和格式中。它需要大量的背景背景才能正确解释。 

为了解决这些差距,谷歌研究人员利用了 Data Commons(最大的规范化公共统计数据统一存储库之一),并使用两种不同的方法将其与 Gemma 系列语言模型进行交互 – 本质上将它们微调到新的 DataGemma 模型中。

第一种方法称为检索交错生成 (RIG),通过将模型的原始生成与存储在 Data Commons 中的相关统计数据进行比较来提高事实准确性。为此,经过微调的 LLM 会生成描述最初生成的 LLM 值的自然语言查询。查询准备就绪后,多模型后处理管道会将其转换为结构化数据查询并运行它以从 Data Commons 检索相关统计答案,然后使用相关引用返回或更正 LLM 生成。

虽然 RIG 建立在已知的 Toolformer 技术之上,但另一种方法RAG与许多公司已经在使用的检索增强生成相同,可帮助模型整合训练数据之外的相关信息。

在这种情况下,经过微调的 Gemma 模型使用原始统计问题来提取相关变量并为 Data Commons 生成自然语言查询。然后针对数据库运行查询以获取相关统计数据/表格。提取值后,它们与原始用户查询一起用于提示长上下文 LLM(在本例中为Gemini 1.5 Pro)以高精度生成最终答案。 

早期测试有显著改善

在手动生成的 101 个查询集上进行测试时,使用 RIG 进行微调的 DataGemma 变体能够将基线模型的 5-17% 事实性提高到 58% 左右。 

使用 RAG,结果不那么令人印象深刻 – 但仍然比基线模型更好。

DataGemma 模型能够通过 Data Commons 的统计响应回答 24-29% 的查询。对于大多数这些响应,LLM 的数字准确率一般较高 (99%)。但是,6% 到 20% 的时间里,它很难从这些数字中得出正确的推论。

尽管如此,RIG 和 RAG 显然都能有效提高处理统计查询的模型的准确性,尤其是与研究和决策相关的查询。它们各有优缺点,RIG 速度更快但细节性较差(因为它会检索单个统计数据并进行验证),而 RAG 提供的数据更全面,但受到数据可用性和对大型上下文处理能力的需求的限制。

谷歌希望 DataGemma 与 RIG 和 RAG 的公开发布将推动对这两种方法的进一步研究,并开辟构建更强大、更有根据的模型的方法。

该公司在今天的一篇博客文章中表示:“我们的研究仍在进行中,我们致力于进一步完善这些方法,扩大这项工作规模,对其进行严格的测试,并最终将这些增强的功能集成到 Gemma 和 Gemini 模型中,最初将采用分阶段、有限访问的方式 ”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/google-de-datagemma-ai-shi-tong-ji-xiang-dao

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年9月15日
Next 2024年9月15日

相关推荐

发表回复

Please Login to Comment