Diffbot 的人工智能模型无需猜测——它能够知道,这要归功于万亿事实知识图谱

Diffbot 的人工智能模型无需猜测——它能够知道,这要归功于万亿事实知识图谱

Diffbot是一家位于硅谷的小公司,以维护世界上最大的网络知识索引之一而闻名,该公司今天宣布发布一种新的人工智能模型,有望解决该领域最大的挑战之一:事实准确性。

新模型是Meta 的 LLama 3.3 的微调版本,是图形检索增强生成 ( GraphRAG)系统的第一个开源实现。

与仅依赖大量预加载训练数据的传统 AI 模型不同,Diffbot 的 LLM利用公司知识图谱中的实时信息,知识图谱是一个不断更新的数据库,包含超过一万亿个相互关联的事实。

Diffbot 创始人兼首席执行官 Mike Tung 在接受 VentureBeat 采访时表示:“我们有一个论点:最终通用推理将被精简为大约 10 亿个参数。你实际上并不希望模型中包含知识。你希望模型擅长使用工具,以便它可以从外部查询知识。”

工作原理

Diffbot 的知识图谱是一个庞大的自动化数据库,自 2016 年以来一直在抓取公共网络。它将网页分类为人物、公司、产品和文章等实体,结合使用计算机视觉和自然语言处理来提取结构化信息。

每四到五天,知识图谱就会更新数百万条新事实,确保其保持最新状态。Diffbot 的AI模型利用这一资源实时查询图谱来检索信息,而不是依赖其训练数据中编码的静态知识。

例如,当被问及最近的新闻事件时,该模型可以在网上搜索最新更新,提取相关事实并引用原始来源。这一过程旨在使系统比传统的 LLM 更准确、更透明。

“想象一下向人工智能询问天气,”Tung 说道。“我们的模型不会根据过时的训练数据生成答案,而是查询实时天气服务并提供基于实时信息的响应。”

Diffbot 的知识图谱如何在寻找事实方面击败传统人工智能

在基准测试中,Diffbot 的方法似乎取得了成效。该公司报告称,其模型在FreshQA(谷歌创建的测试实时事实知识的基准)上的准确率达到 81%,超过了 ChatGPTGemini。它在MMLU -Pro(一种更难的学术知识标准测试版本)上的得分也达到了 70.36%。

或许最重要的是,Diffbot 正在将其模型完全开源,允许公司在自己的硬件上运行它并根据自己的需求进行定制。这解决了人们对数据隐私和与主要 AI 提供商的供应商锁定日益增长的担忧。

“你可以在自己的机器上本地运行它,”Tung 指出。“如果不将数据发送给 Google 并将其运送到你的场所之外,你就无法运行 Google Gemini。”

开源人工智能可能会改变企业处理敏感数据的方式

此次发布正值人工智能发展的关键时刻。近几个月来,尽管各大公司不断扩大模型规模,但大型语言模型容易“产生幻觉”或产生虚假信息,批评声却与日俱增。Diffbot 的方法提出了一条替代的前进道路,即专注于将人工智能系统建立在可验证的事实之上,而不是试图将所有人类知识编码到神经网络中。

“并不是每个人都只追求越来越大的模型,”Tung 说。“你可以用一种像我们这样的非直观方法,得到一个比大模型更强大的模型。”

行业专家指出,Diffbot 基于知识图谱的方法对于准确性和可审计性至关重要的企业应用尤其有价值。该公司已经为思科、DuckDuckGo和Snapchat等大公司提供数据服务。

该模型可通过GitHub上的开源版本立即获得,并可通过diffy.chat上的公开演示进行测试。对于希望在内部部署该模型的组织,Diffbot 表示,较小的 80 亿参数版本可以在单个Nvidia A100 GPU上运行,而完整的 700 亿参数版本则需要两个H100 GPU。

展望未来,Tung 认为人工智能的未来不在于模型越来越大,而在于更好地组织和获取人类知识:“事实会变得陈旧。很多事实将被转移到明确的地方,在那里你可以真正修改知识,并且可以获得数据来源。”

在人工智能行业努力应对事实准确性和透明度方面的挑战之际,Diffbot 的发布为主流的“越大越好”范式提供了一个引人注目的替代方案。它是否能成功改变该领域的方向还有待观察,但它确实表明,在人工智能方面,规模并不是一切。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/diffbot-de-ren-gong-zhi-neng-mo-xing-wu-xu-cai-ce-ta-neng

Like (0)
王 浩然的头像王 浩然作者
Previous 7小时前
Next 3小时前

相关推荐

发表回复

Please Login to Comment