加州大学圣地亚哥分校和清华大学的研究人员让人工智能能够更好地了解何时寻求帮助

王浩然 • 2024年11月7日上午8:00 • AI前沿 • 93 views

一个计算机科学家团队开发了一种方法，可以帮助人工智能了解何时使用工具而不是依赖内置知识，模仿人类专家解决复杂问题的方式。

加州大学圣地亚哥分校和清华大学的研究表明，当人工智能系统学会平衡内部知识和外部工具时，准确率会提高 28%，这是在科学工作中部署人工智能的关键能力。

科学家如何教人工智能做出更好的决策

研究人员在论文中写道：“虽然将 LLM 与工具相结合可以提高可靠性，但这种方法通常会导致过度依赖工具，从而削弱模型通过基本推理解决简单问题的能力。” “相比之下，人类专家首先使用领域知识评估问题的复杂性，然后再选择合适的解决方法。”

这种新方法被称为“边学习边适应”，采用两步流程来训练人工智能系统。首先，模型直接从使用外部工具生成的解决方案中学习，帮助其内化领域知识。然后，它学会将问题分为“简单”或“困难”，并据此决定是否使用工具。

小型人工智能模型在复杂任务上的表现优于大型系统

这一进展之所以意义重大，是因为它采用了效率至上的理念。研究人员使用一个只有 80 亿个参数的语言模型（比 GPT-4 等行业巨头小得多），在测试数据集中，答案准确率提高了 28.18%，工具使用准确率提高了 13.89%。该模型在专门的科学任务中表现出了特别的优势，在特定领域的表现优于大型模型。

这一成功挑战了人工智能开发中的一个基本假设：更大的模型必然会产生更好的结果。相反，研究表明，教会人工智能何时使用工具而不是依赖内部知识（就像训练初级科学家知道何时相信他们的计算而不是咨询专门的设备一样）可能比原始的计算能力更重要。

更小、更智能的人工智能模型的兴起

这项研究与 2024 年整个行业向更高效的 AI 模型转变的趋势相一致。包括Hugging Face、Nvidia、OpenAI、Meta、Anthropic和H2O.ai在内的主要参与者今年都发布了体积较小但功能强大的模型。

Hugging Face 的SmolLM2版本参数小至 1.35 亿个，可直接在智能手机上运行。H2O.ai 的紧凑型文档分析模型在专门任务上的表现优于科技巨头的大型系统。甚至 OpenAI 也凭借GPT-4o Mini进入了小型模型领域，以极低的成本提供类似的功能。

这种“AI小型化”的趋势反映出人们越来越认识到更大并不总是更好——专业化的、高效的模型通常可以在使用更少的计算资源的情况下匹配或超越更大模型的性能。

人工智能如何学会平衡内部知识和外部工具

该技术方法涉及两个不同的学习阶段。在训练过程中，模型首先经历研究人员所称的“世界知识蒸馏”（WKD），从使用外部工具生成的解决方案中学习。这有助于它积累内部专业知识。

第二阶段“工具使用适应”（TUA）教会系统根据其直接解决问题的信心和准确性对问题进行分类。对于较简单的问题，它保持与 WKD 相同的方法。但对于更具挑战性的问题，它会学会切换到使用外部工具。

商业影响：更高效的人工智能系统，适用于复杂的科学工作

对于部署 AI 系统的企业来说，这项研究解决了长期困扰该行业的一个根本挑战。当前的 AI 系统代表了两个极端：它们要么不断寻求外部工具（这会增加计算成本并减慢简单操作的速度），要么冒险尝试在内部解决所有问题，从而导致需要专门工具才能解决的复杂问题出现潜在错误。

这种低效率不仅仅是一个技术问题，而是一个重大的业务问题。实施人工智能解决方案的公司经常发现，他们要为运行外部工具的云计算资源支付高价，即使是人工智能应该在内部处理的基本任务也是如此。另一方面，选择独立人工智能系统的组织可能会犯下代价高昂的错误，因为这些系统在没有适当验证工具的情况下尝试进行复杂的计算。

研究人员的方法提供了一个有希望的中间立场。通过教人工智能做出像人类一样的何时使用工具的决定，组织可以降低计算成本，同时保持甚至提高准确性。这在科学研究、金融建模或医学诊断等领域尤其有价值，因为效率和精度都至关重要。

此外，这一发展表明，未来人工智能系统可能成为科学工作中更具成本效益和更可靠的合作伙伴，能够在何时利用外部资源方面做出细致入微的决定——就像一位经验丰富的专业人士，他确切地知道何时咨询专门的工具而不是依赖他们的专业知识。

知道何时寻求帮助的力量

除了直接的技术成就之外，这项研究还挑战了主导人工智能发展的“越大越好”的范式。通过证明相对较小的模型可以通过更明智的工具使用决策超越其较大的同类模型，该团队指出了人工智能更可持续、更实用的未来。

这项研究的影响远远超出了学术研究的范围。随着人工智能越来越多地进入错误会带来实际后果的领域——从医疗诊断到气候建模——知道何时寻求帮助的能力变得至关重要。这项研究表明，未来的人工智能系统不仅功能强大，而且非常谨慎——就像熟练的专业人士一样，了解自己的局限性。

本质上，研究人员教会了人工智能一些基本的人性：有时最明智的决定是知道何时寻求帮助。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/jia-zhou-da-xue-sheng-di-ya-ge-fen-xiao-he-qing-hua-da-xue

Like (0)

王浩然作者

0 0

xAI 以每月价值 25 美元的 API 积分吸引开发者，并支持 OpenAI、Anthropic SDK

Previous 2024年11月6日

Meta 与 Lumen 合作推动网络扩张和 AI 目标

Next 2024年11月7日

AI前沿

人工智能行业对 Chatbot Arena 非常着迷，但它可能不是最好的基准

在过去的几个月里，埃隆·马斯克等科技高管一直在吹捧其公司人工智能模型在特定基准：Chatbot Arena 上的表现。 Chatbot Arena 由一个名为 LMSYS 的非营利…

王浩然
2024年9月8日
000
AI前沿

本周来自网络的精彩科技故事

人工智能 OpenAI 升级其最智能的 AI 模型，提升推理能力Will Knight | Wired“OpenAI 表示，o3 模型在多个指标上的得分都远高于其前身，包括衡量复杂…

王浩然
2024年12月30日
000
AI前沿

克服人工智能基础设施部署障碍的 5 种方法

如今，企业面临着利用人工智能作为竞争优势的巨大压力，但我们仍处于早期阶段。只有约40% 的大型企业在其业务中积极部署人工智能，但障碍使另外 40% 的企业处于探索和实验阶段。尽管人…

王浩然
2024年11月1日
000
AI前沿

Nvidia 人工智能人形机器人在拉斯维加斯提供咖啡

Richtech Robotics 公司生产的 Adam 机器人将于周日在 Town Square 的 Clouffee and Tea 开始工作采用 Nvidia AI 技术的…

王浩然
2025年2月18日
000
AI前沿

生成式人工智能不会主动来找你——你不愿意采用它才是

我是一名作家，而且一直都是。我的写作技能无疑是我作为内部公关主管和传播策略师职业生涯的核心。不可否认，我嘲笑生成式人工智能会取代我的工作。一台没有灵魂的机器怎么能与我的创造力相匹敌…

王浩然
2024年10月29日
000
AI前沿

为什么我的iPhone没有充电？

当您插入iPhone或将其放在无线充电器上为电池充电时，可是它还没有立即充电。发生了什么？很多事情都可能出错。让我们来看看一些最常见的iPhone充电问题，以及您可以做些什么。使…

free
2024年9月26日
000
AI前沿

51秒攻破防线：CISO们如何反击闪电般的攻击

一、引言在数字化时代，网络攻击的速度之快令人咋舌。据CrowdStrike的最新研究，攻击者仅需51秒即可突破防线并在网络中横向移动，利用窃取的凭证逃避检测。面对AI驱动的深度伪…

王浩然
2025年3月15日
000
AI前沿

改变我们在董事会中对 GenAI 的看法：把握短期和长期投资回报率

随着世界各地的领导团队开始规划 2025 年，每个人都在思考一个问题：他们在人工智能和/或生成式人工智能 (GenAI) 上的投资何时能获得回报。Google Cloud 的最新研…

点点
2024年10月11日
000
AI前沿

量子计算：超越加密，开启科学繁荣的新篇章

随着量子计算技术的日益成熟，关于其对传统加密方法的潜在威胁的讨论也日益增多。然而，量子计算真的会成为网络安全的终结者吗？或许，我们应该从一个更广阔的视角来看待这一问题——量子计算更…

王浩然
6天前
000
AI前沿

Pig API：为您的 AI 代理提供虚拟桌面以自动化 Windows 应用程序

在不断发展的人工智能领域，企业面临着将现代解决方案与传统系统集成的挑战，而这些系统往往缺乏无缝集成所需的应用程序编程接口 (API)。约 66%的组织继续依赖传统应用程序进行核心运…

王浩然
2025年2月4日
000
AI前沿

这一届AI创业者：不敢再谈理想，怕伤钱

ChatGPT引发的人工智能热潮被疯狂追捧一年多后，AI行业开始陷入迷茫。距离OpenAI发布GPT-4已超过一年半，GPT-5还迟迟不见踪影，文生视频大模型Sora也没有全面开…

点点
2024年9月25日
000
AI前沿

2024 年生成式人工智能融资额创历史新高

如果还有任何疑问的话，生成式人工智能泡沫并没有在 2024 年破灭。去年，对生成式人工智能的投资达到了新高，生成式人工智能包括一系列由人工智能驱动的应用程序、工具和服务，用于生成…

王浩然
2025年1月4日
000
AI前沿

最推荐的电动汽车充电器公司之一刚刚抛弃了美国用户

任何电动汽车车主都会告诉你，买一个好的充电器是一项重要的投资。使用电动可能会让您不必去加油站，但您的汽车仍然需要能源才能运行，一个好的充电器将确保您的电池快速充满，同时保护它免受任…

点点
2024年10月8日
000
AI前沿

Together AI 3.05亿美元赌注：DeepSeek-R1等推理模型正在增加而非减少GPU需求‌重写并翻译后的内容

DeepSeek-R1刚出现时，业界普遍担忧先进推理能力的实现可能会减少对基础设施的需求。然而，事实证明情况并非如此。至少，根据Together AI的说法，DeepSeek和开源…

王浩然
2025年2月22日
000
AI前沿

以下是 2024 年迄今为止苹果、谷歌、微软等公司最热门的产品发布

如果您喜欢小玩意和小发明，今年的产品会议将非常适合您。我们仔细研究了今年迄今为止各大科技公司和贸易展会发布的众多产品公告，并列出了我们认为最重要的或最有趣的产品。到目前为止，这份…

王浩然
2024年9月21日
000
AI前沿

飞行汽车公司利用人工智能进行车辆设计

SkyDrive 与 Braid Technologies 合作，利用人工智能对数千种设计模式进行微调，以优化其电动飞行器

点点
2024年9月27日
000
AI前沿

法国 AI 初创公司 Mistral 推出适用于 iPhone、Android 的 Le Chat 移动应用程序——它能否让企业不再关注 DeepSeek？

虽然最近几天人工智能市场似乎围绕DeepSeek 和 OpenAI而崩溃，但当然还有许多其他由优秀工程师组成的团队开发大型语言模型 (LLM)，这些模型值得关注，因为用户和企业都在…

王浩然
2025年2月7日
000
AI前沿

麻省理工学院的突破可能会改变机器人训练

麻省理工学院的研究人员开发出了一种机器人训练方法，可以减少时间和成本，同时提高对新任务和环境的适应性。这种方法称为异构预训练变压器 (HPT)，它将来自多个来源的大量不同数据组合…

点点
2024年11月4日
000
AI前沿

DeepMind 的 Michelangelo 基准测试揭示了长上下文 LLM 的局限性

具有超长上下文窗口的大型语言模型 (LLM)最近成为头条新闻。将数十万甚至数百万个标记塞入单个提示的能力为开发人员带来了许多可能性。但是这些长上下文法学硕士对于所接收的大量信息…

王浩然
2024年10月15日
000
AI前沿

数据中心技术正在蓬勃发展，但对于初创企业来说采用并不容易

数据中心行业正在迅速扩张，以跟上人工智能飞轮式增长的步伐。虽然这些数据中心是人工智能基础设施的必需品，但它们存储着人工智能公司的计算能力，建造成本高昂，运行成本似乎更高，而且耗能巨…

王浩然
2024年10月14日
000