Google 的 DataGemma AI 是统计向导

王浩然 • 2024年9月15日下午1:00 • AI前沿 • 142 views

谷歌正在扩大其 AI 模型系列，同时解决该领域的一些最大问题。今天，该公司推出了 DataGemma，这是一对开源的、指令调整的模型，它们朝着缓解幻觉挑战迈出了一步——大型语言模型 (LLM) 倾向于在围绕统计数据的查询中提供不准确的答案。

这两个新模型都可以在Hugging Face上用于学术和研究，它们以现有的Gemma 系列开放模型为基础，并使用来自 Google 创建的Data Commons平台的大量真实数据来提供答案。该公共平台提供了一个开放的知识图谱，其中包含来自经济、科学、健康和其他领域的可信组织的超过 2400 亿个数据点。

这些模型使用两种不同的方法来提高回答用户问题的事实准确性。这两种方法在涵盖各种查询的测试中都证明相当有效。

事实幻觉的答案

LLM 是我们所有人都需要的技术突破。尽管这些模型只有几年的历史，但它们已经为从代码生成到客户支持的一系列应用程序提供支持，并为企业节省了宝贵的时间/资源。然而，即使在取得所有进展之后，模型在处理与数字和统计数据或其他及时事实有关的问题时产生幻觉的倾向仍然是一个问题。

谷歌研究人员在今天发表的一篇论文中写道： “研究人员已经确定了导致这些现象的几个原因，包括 LLM 生成的根本概率性质以及训练数据中缺乏足够的事实覆盖。”

即使是传统的基础方法对于统计查询也不是很有效，因为它们涵盖了一系列逻辑、算术或比较运算。公共统计数据分布在各种各样的模式和格式中。它需要大量的背景背景才能正确解释。

为了解决这些差距，谷歌研究人员利用了 Data Commons（最大的规范化公共统计数据统一存储库之一），并使用两种不同的方法将其与 Gemma 系列语言模型进行交互 – 本质上将它们微调到新的 DataGemma 模型中。

第一种方法称为检索交错生成 (RIG)，通过将模型的原始生成与存储在 Data Commons 中的相关统计数据进行比较来提高事实准确性。为此，经过微调的 LLM 会生成描述最初生成的 LLM 值的自然语言查询。查询准备就绪后，多模型后处理管道会将其转换为结构化数据查询并运行它以从 Data Commons 检索相关统计答案，然后使用相关引用返回或更正 LLM 生成。

虽然 RIG 建立在已知的 Toolformer 技术之上，但另一种方法RAG与许多公司已经在使用的检索增强生成相同，可帮助模型整合训练数据之外的相关信息。

在这种情况下，经过微调的 Gemma 模型使用原始统计问题来提取相关变量并为 Data Commons 生成自然语言查询。然后针对数据库运行查询以获取相关统计数据/表格。提取值后，它们与原始用户查询一起用于提示长上下文 LLM（在本例中为Gemini 1.5 Pro）以高精度生成最终答案。

早期测试有显著改善

在手动生成的 101 个查询集上进行测试时，使用 RIG 进行微调的 DataGemma 变体能够将基线模型的 5-17% 事实性提高到 58% 左右。

使用 RAG，结果不那么令人印象深刻 – 但仍然比基线模型更好。

DataGemma 模型能够通过 Data Commons 的统计响应回答 24-29% 的查询。对于大多数这些响应，LLM 的数字准确率一般较高 (99%)。但是，6% 到 20% 的时间里，它很难从这些数字中得出正确的推论。

尽管如此，RIG 和 RAG 显然都能有效提高处理统计查询的模型的准确性，尤其是与研究和决策相关的查询。它们各有优缺点，RIG 速度更快但细节性较差（因为它会检索单个统计数据并进行验证），而 RAG 提供的数据更全面，但受到数据可用性和对大型上下文处理能力的需求的限制。

谷歌希望 DataGemma 与 RIG 和 RAG 的公开发布将推动对这两种方法的进一步研究，并开辟构建更强大、更有根据的模型的方法。

该公司在今天的一篇博客文章中表示：“我们的研究仍在进行中，我们致力于进一步完善这些方法，扩大这项工作规模，对其进行严格的测试，并最终将这些增强的功能集成到 Gemma 和 Gemini 模型中，最初将采用分阶段、有限访问的方式。 ”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/google-de-datagemma-ai-shi-tong-ji-xiang-dao

Like (0)

王浩然作者

0 0

Salesforce 的 AgentForce：想要管理你整个业务的 AI 助手

Previous 2024年9月15日

如何利用生成工具推动 Glean 筹集 2.6 亿美元：GraphRAG

Next 2024年9月15日

AI前沿

Pig API：为您的 AI 代理提供虚拟桌面以自动化 Windows 应用程序

在不断发展的人工智能领域，企业面临着将现代解决方案与传统系统集成的挑战，而这些系统往往缺乏无缝集成所需的应用程序编程接口 (API)。约 66%的组织继续依赖传统应用程序进行核心运…

王浩然
2025年2月4日
000
AI前沿

谷歌的 NotebookLM 现在可让你指导 AI 播客的主持人

Google 的 NotebookLM 现在允许您自定义其类似播客的音频概览。在使用笔记应用发起讨论之前，您可以向 AI 主持人发出指示，告诉他们您希望他们关注什么主题，甚至可以针…

王浩然
2024年10月20日
000
AI前沿

Atlassian 的 Rovo AI 现已正式发布

六个月前， Atlassian首次展示了 Rovo。Rovo是该公司所谓的“AI 队友”，它将更智能的搜索和基于聊天的 AI 工具与代理相结合，可以帮助用户在 Jira 和 Con…

王浩然
2024年10月10日
000
AI前沿

Zoom的AI进化：从基础会议工具到由LLMs和SLMs驱动的代理型生产力平台

在数字化时代，视频会议软件Zoom已经成为企业沟通与合作不可或缺的一部分。然而，Zoom的旅程远未止步于简单的视频通话。近年来，通过深度集成人工智能技术，Zoom已经从一个基础会议…

王浩然
2025年3月18日
000
AI前沿

Cohere 联合创始人 Nick Frosst 的独立乐队 Good Kid 几乎和他的 AI 公司一样成功

他们在 Lollapalooza 音乐节上表演过，为葡萄牙音乐节 The Man 做开场表演，白天还做程序员。估值 55 亿美元的加拿大人工智能初创公司 Cohere的联合创始人…

王浩然
2024年9月16日
000
AI前沿

Adobe Photoshop 评测：为何其 AI 工具让它无与伦比

Adobe Photoshop ：图像编辑软件的巅峰之作。第一次打开它时，我既惊叹又被它的功能所震撼。我在纽约市为期三个月的密集设计课程中花了最多的时间使用它。我记得当时觉得用“…

AI评测师
2024年9月19日
000
AI前沿

从问题开始，沙盒，确定值得信赖的供应商——人工智能入门快速指南

77%的公司已在使用或探索使用 AI，超过 80% 的公司声称这是首要任务，领导者渴望从该技术中获得最大价值。然而，可用的解决方案数量和随之而来的大量营销信息可能会让寻找一条清晰的…

王浩然
2025年2月9日
000
AI前沿

老美都要在太空建数据中心了，成本大降95%，英伟达强力支持

建数据中心，可能是各家AI大厂最重要的事情之一。这两年，科技巨头的年化资本支出，从1380亿美元同比增长到2290亿美元，这多花的910亿美元，有一大部分花在了AI数据中心建设上…

点点
2024年9月16日
000
AI前沿

用于训练 Stable Diffusion 的数据集背后的组织声称已经删除了 CSAM

德国研究机构LAION创建了用于训练Stable Diffusion和其他生成式 AI 模型的数据，该机构发布了一个新数据集，声称该数据集“已彻底清除已知的疑似儿童性虐待材料 (C…

王浩然
2024年8月31日
000
AI前沿

51秒攻破防线：CISO们如何反击闪电般的攻击

一、引言在数字化时代，网络攻击的速度之快令人咋舌。据CrowdStrike的最新研究，攻击者仅需51秒即可突破防线并在网络中横向移动，利用窃取的凭证逃避检测。面对AI驱动的深度伪…

王浩然
2025年3月15日
000
AI前沿

人工智能空想性错视：机器能够识别无生命物体中的面孔吗？

新的“虚幻”面部数据集揭示了人类和算法面部检测之间的差异、与动物面部识别的联系以及预测人们最常感知面部的位置的公式。 1994 年，佛罗里达州珠宝设计师戴安娜·杜伊瑟在一块烤奶酪三…

点点
2024年10月3日
000
AI前沿

微软正致力于打造适用于Copilot的3D游戏体验‌

近期，有迹象表明微软正着手开发一款专为Copilot设计的3D游戏体验。这一举措不仅彰显了微软在游戏领域的持续探索与创新，也预示着AI与游戏技术的深度融合将迎来新的发展阶段。据悉…

王浩然
2025年3月12日
000
AI前沿

Nvidia 推出 Omniverse 实时物理数字孪生

Nvidia 宣布了其 Nvidia Omniverse Blueprint，这是一项使行业软件开发人员能够构建具有逼真的实时物理特性的数字孪生技术。它使航空航天、汽车、制造、能…

王浩然
2024年11月20日
000
AI前沿

OpenAI全新图像生成器全面向用户开放‌

在人工智能技术的浪潮中，OpenAI始终站在创新的前沿，不断推动着行业的发展。近日，OpenAI宣布其最新的图像生成器已全面向所有用户开放。这一消息标志着OpenAI在图像生成领域…

王浩然
2025年4月2日
000
AI前沿

人工智能公司与沃尔沃联手开发自动驾驶卡车

人工智能初创公司 Waabi正与沃尔沃合作，共同开发和大规模部署自动驾驶卡车。两家公司正在建立长期战略合作关系，他们表示这将加速自动驾驶卡车在美国各地的推广。根据该协议，…

王浩然
2025年2月8日
000
AI前沿

马斯克对 OpenAI 的修改后诉讼将微软列为被告

埃隆·马斯克对 OpenAI 提起的诉讼指控该公司放弃了非营利使命，该诉讼于 7 月撤回，但8 月又重新提起。现在，在一份修改后的诉状中，该诉讼将微软、LinkedIn 联合创始人…

王浩然
2024年11月16日
000
AI前沿

据称人工智能和机器人被用来欺诈性地增加音乐流量

一位美国歌手被指控利用人工智能技术和机器人操纵音乐流媒体平台，欺诈性地夸大他的流媒体统计数据并赚取数百万美元的版税。来自北卡罗来纳州的 52 岁的迈克尔·史密斯 (Michael…

点点
2024年9月18日
000
AI前沿

大型语言模型如何揭开“黑箱”人工智能的神秘面纱

人工智能正成为我们日常生活中越来越重要的一部分。然而，尽管人工智能功能强大，但许多人工智能系统仍然像“黑匣子”一样工作。它们会做出决策和预测，但很难理解它们是如何得出这些结论的。这…

王浩然
2024年12月27日
000
AI前沿

亚马逊携手AI机器人，开启仓库自动化新纪元

亚马逊与机器人软件公司Covariant签署了一项新的商业协议，包括聘用该公司的员工，以加速其仓库的自动化进程。通过新协议，亚马逊将获得 Covariant 机器人基础模型的非…

点点
2024年9月7日
000
AI前沿

OpenAI 将 o1 AI 模型扩展到企业和教育领域，与 Anthropic 直接竞争

OpenAI已向所有ChatGPT Enterprise和ChatGPT Edu客户开放其最新的 AI 模型o1-preview和o1-mini。这些模型旨在处理复杂的推理任务，有…

王浩然
2024年9月20日
000

发表回复

Please Login to Comment

Google 的 DataGemma AI 是统计向导

事实幻觉的答案

早期测试有显著改善

相关推荐

发表回复

Share To :