2025 年企业 AI 成功剧本：从代理到评估

王浩然 • 2025年1月7日下午3:00 • AI前沿 • 72 views

2025 年将成为企业 AI 的关键一年。过去的一年见证了快速创新，今年也将如此。这使得重新审视您的AI战略以保持竞争力并为客户创造价值变得比以往任何时候都更加重要。从扩展 AI 代理到优化成本，以下是企业今年应优先考虑的五个关键领域。

1. 代理：下一代自动化

AI 代理不再只是理论上的东西。到 2025 年，它们将成为企业简化运营和增强客户互动的必备工具。与传统软件不同，由大型语言模型 (LLM) 驱动的代理可以做出细致入微的决策，处理复杂的多步骤任务，并与工具和 API 无缝集成。

2024 年初，代理尚未做好迎接黄金时段的准备，犯了一些令人沮丧的错误，比如产生幻觉 URL。随着前沿大型语言模型本身的改进，它们开始变得更好。

“让我这样说吧，”Red Dragon 的联合创始人 Sam Witteveen 说道，该公司为公司开发代理，最近审查了去年建立的 48 个代理。“有趣的是，我们在年初建立的代理，很多在年底表现得更好，因为模型变得更好了。”Witteveen 在我们拍摄的视频播客中分享了这一点，详细讨论了这五大趋势。

模型越来越好，幻觉越来越少，它们也接受了执行代理任务的训练。模型提供商正在研究的另一个功能是使用 LLM 作为评判者，随着模型越来越便宜（我们将在下面介绍），公司可以使用三个或更多模型来挑选出最佳输出以做出决策。

秘诀的另一部分是什么？检索增强生成 (RAG) 正在变得越来越好，它允许代理高效地存储和重复使用知识。想象一下，一个旅行社机器人不仅可以规划行程，还可以根据更新的偏好和预算实时预订航班和酒店。

要点：企业需要确定代理可以提供高投资回报率的用例——无论是在客户服务、销售还是内部工作流程中。工具使用和高级推理能力将决定这一领域的赢家。

2. 评估：可靠人工智能的基础

评估或“评估”是任何强大的 AI 部署的支柱。这是选择使用哪个 LLM（目前有数百个）来完成任务的过程。这对于准确性很重要，也对于将 AI 输出与企业目标保持一致很重要。良好的评估可确保聊天机器人理解语气、推荐系统提供相关选项，并且预测模型可避免代价高昂的错误。

例如，一家公司对客户支持聊天机器人的评估可能包括平均解决时间、响应准确性和客户满意度分数等指标。

许多公司投入大量时间来处理输入和输出，以使其符合公司的期望和工作流程，但这会耗费大量时间和资源。随着模型本身的改进，许多公司通过更多地依赖模型本身来完成工作来节省精力，因此选择合适的模型变得更加重要。

这个过程迫使人们进行清晰的沟通和做出更好的决策。当你“更加清楚如何评估某件事的结果以及你真正想要的是什么时，这不仅会让你在法学硕士和人工智能方面表现得更好，而且实际上会让你在与人类打交道方面表现得更好，”维特文说。“当你能清楚地向人类表达：这就是我想要的，这就是我希望它看起来的样子，这是我对它的期望。当你对此非常具体时，人类的表现会突然好很多。”

维特文指出，公司经理和其他开发人员告诉他：“哦，你知道，通过擅长快速工程，或者擅长为模型编写正确的评估，我已经能够更好地向我的团队发出指示。”

通过撰写清晰的评估，企业迫使自己明确目标——这对人类和机器来说都是双赢的。

要点：制定高质量的评估至关重要。首先要明确基准：响应准确性、解决时间以及与业务目标的一致性。这可确保您的 AI 不仅表现出色，而且与您的品牌价值保持一致。

3. 成本效益：扩大人工智能规模，无需花费太多资金

人工智能正在变得越来越便宜，但战略部署仍然是关键。法学硕士链各个层面的改进正在大幅降低成本。法学硕士提供商之间以及来自开源竞争对手的激烈竞争导致价格定期下调。

同时，后期培训软件技术正在使 LLM 变得更加高效。

Groq 的 LPU 等新硬件供应商的竞争，以及传统 GPU 提供商 Nvidia 的改进，大大降低了推理成本，使 AI 可用于更多用例。

真正的突破来自于优化模型在应用程序中的使用方式，即推理时，而不是训练时，即首次使用数据构建模型时。模型蒸馏等其他技术以及硬件创新意味着公司可以用更少的资源实现更多的目标。这不再关乎你是否能负担得起人工智能——今年你可以以比六个月前更低的成本完成大多数项目——而是如何扩展它。

要点：对您的 AI 项目进行成本效益分析。比较硬件选项并探索模型提炼等技术，以在不影响性能的情况下降低成本。

4.记忆个性化：根据用户需求定制人工智能

个性化不再是可选项，而是预期。2025 年，具有记忆功能的 AI 系统将实现这一目标。通过记住用户偏好和过去的互动，AI 可以提供更具针对性和更有效的体验。

记忆个性化并没有得到广泛或公开的讨论，因为用户通常对人工智能应用程序存储个人信息以增强服务感到不安。这涉及到隐私问题，而且当模型给出的答案表明它对你了解很多时，比如，你有几个孩子，你以什么为生，你的个人品味是什么，这令人厌恶。OpenAI 就是一个例子，它在其系统内存中保护有关 ChatGPT 用户的信息——尽管默认情况下是开启的，但可以关闭和删除。

虽然使用 OpenAI 和其他模型的企业无法获得相同的信息，但他们可以使用 RAG 创建自己的记忆系统，确保数据既安全又有效。然而，企业必须谨慎行事，在个性化和隐私之间取得平衡。

要点：制定明确的记忆个性化策略。选择加入系统和透明政策可以在提供价值的同时建立信任。

5. 推理和测试时间计算：新的效率和推理前沿

推理是人工智能与现实世界的交汇点。2025 年，重点是让这一过程更快、更便宜、更强大。思路链推理（模型将任务分解为逻辑步骤）正在彻底改变企业处理复杂问题的方式。现在，人工智能可以有效地处理需要更深层次推理的任务，例如战略规划。

例如，OpenAI 的 o3-mini 模型预计将于本月晚些时候发布，随后将发布完整的 o3 模型。它们引入了高级推理能力，将复杂问题分解为可管理的块，从而减少人工智能幻觉并提高决策准确性。这些推理改进在数学、编码和科学应用等领域发挥作用，在这些领域，增加思考可以有所帮助——尽管在合成语言等其他领域，进步可能有限。

然而，这些改进也将带来计算需求的增加，从而带来更高的运营成本。o3-mini 旨在提供一种折衷方案，在保持高性能的同时控制成本。

要点：确定可从高级推理技术中获益的工作流程。实施您公司的特殊思路链推理步骤并选择优化的模型，可以让您在此方面占据优势。

结论：将洞察转化为行动

2025 年的人工智能不仅仅是采用新工具，它还关乎战略选择。无论是部署代理、完善评估还是以经济高效的方式扩展，成功之路都在于深思熟虑的实施。企业应该以明确、有针对性的战略来拥抱这些趋势。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/2025-nian-qi-ye-ai-cheng-gong-ju-ben-cong-dai-li-dao-ping-gu

Like (0)

王浩然作者

0 0

OpenAI 的红队创新为 AI 时代的安全领导者定义了新的要素

Previous 2025年1月7日

OpenAI 在 2025 年初大力宣传通用人工智能和超级智能

Next 2025年1月7日

AI前沿

Zencoder发布“咖啡模式”：一键让AI编写单元测试，引领未来编程潮流

在人工智能（AI）技术日新月异的今天，AI编程助手正逐渐成为软件开发领域不可或缺的一部分。近日，Zencoder公司推出了其革命性的“咖啡模式”功能，这一创新功能允许开发者一键启动…

王浩然
2025年4月4日
000
AI前沿

从AI代理的热潮到实践：为何企业必须重视适用性而非盲目追求

随着我们全面步入自主转型的时代，AI代理正在重塑企业的运营方式和价值创造途径。然而，在数百家声称提供“AI代理”的供应商中，我们如何穿透炒作迷雾，理解这些系统真正能够实现的成果，以…

王浩然
2025年4月7日
000
AI前沿

Agentic AI 可以帮助您在 2025 年找到一份新的软件工程工作

45% 的美国人担心自己的个人财务状况，最担心的是自己的财务未来，包括没有足够的钱退休（68%）、维持生活成本（56%）和控制债务水平（45%）。一份新的退休准备报告还发现，62…

王浩然
2025年1月8日
000
AI前沿

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

传闻已久、拖了又拖的OpenAI模型项目“草莓”，终于现身了。北京时间9月13日凌晨，Open AI正式发布了其首款具有推理能力的模型，代号为OpenAI o1，包括无所不能的大…

点点
2024年9月13日
000
AI前沿

Shaktiman Mall，Aviatrix 首席产品经理 – 访谈系列

Shaktiman Mall是 Aviatrix 的首席产品经理。凭借十多年的网络解决方案设计和实施经验，Mall 以其独创性、创造力、适应性和精确性而自豪。在加入 Aviatri…

点点
2024年9月1日
000
AI前沿

DataRobot 推出企业 AI 套件，以弥合 AI 开发与商业价值之间的差距

随着全球企业将资源投入到人工智能领域，许多企业都在努力将其技术投资转化为可衡量的业务成果。这就是DataRobot希望通过今天发布的一系列新产品更新来解决的挑战。Da…

王浩然
2024年11月13日
000
AI前沿

个人AI的崛起：通过自动化颠覆客户体验

引言随着人工智能（AI）技术的飞速发展，特别是大型语言模型（LLMs）与计算能力的显著提升，我们正见证着AI在日常生活和商业领域中的广泛应用。个人AI，作为这一浪潮中的佼佼者，正…

王浩然
2025年3月15日
000
AI前沿

OpenAI翅膀硬了要单飞？急欲摆脱对微软数据中心依赖

划重点： OpenAI抱怨称，微软在为其供应服务器方面的响应速度不够快。 OpenAI正与甲骨文洽谈，计划联手构建一个全球最顶尖的AI数据中心。微软已承诺，将在2025年底之前向…

点点
2024年10月9日
000
AI前沿

“这是一个游戏规则的改变者”：Runway 发布新的 AI 面部表情动作捕捉功能 Act-One

自2022 年底首批模型首次亮相以来，人工智能视频在过去几年中取得了令人难以置信的进步，其真实感、分辨率、保真度、提示依从性（与用户输入的文本提示或视频描述的匹配程度）和数量都有所…

王浩然
2024年10月25日
000
AI前沿

人工智能热潮中英伟达成为全球最大公司

得益于全球人工智能的推动，英伟达周二市值超过苹果，成为全球最大公司。据彭博社报道，自 2022 年底以来，这家芯片制造商的市值增长了 850%。截至收盘，Nvidia 市值为 3…

王浩然
2024年11月6日
000
AI前沿

Mistral 推出 Pixtral Large，并将 Le Chat 升级为 ChatGPT 的全面竞争对手

法国初创公司Mistral去年凭借创纪录的欧洲种子资金融资额引起轰动，今天该公司发布了一系列更新，包括一个名为 Pixtral Large 的全新大型基础模型。该公司正在进一步升…

王浩然
2024年11月20日
000
AI前沿

DuckDuckGo进一步拥抱GenAI，其AI聊天界面正式脱离测试阶段‌

在人工智能技术日新月异的今天，搜索引擎巨头DuckDuckGo宣布其基于GenAI（通用人工智能）技术打造的聊天界面已正式脱离测试阶段，迈向全面应用。这一重大进展标志着DuckDu…

王浩然
2025年3月7日
000
AI前沿

2024 年证明控制人工智能是可能的

今年几乎所有的人工智能重大新闻都是关于该技术发展速度有多快、它造成的危害，以及关于它多久会发展到人类无法控制的程度的猜测。但 2024 年，各国政府也在监管算法系统方面取得了重大进…

王浩然
2024年12月26日
000
AI前沿

Airtel 部署人工智能遏制垃圾邮件，呼吁印度对 WhatsApp 进行监管

印度第二大电信运营商巴帝电信周三向所有客户推出了一款免费的人工智能垃圾信息检测系统，旨在遏制该国猖獗的垃圾电话和信息，同时呼吁对 WhatsApp 和其他消息平台进行更严格的监管。…

王浩然
2024年9月28日
000
AI前沿

微软推出定制芯片以提高数据中心安全性和电源效率

在今天的Ignite开发者大会上，微软发布了两款专为其数据中心基础设施设计的新芯片：Azure Integrated HSM和Azure Boost DPU。这些定制设计的芯片…

王浩然
2024年11月22日
000
AI前沿

白宫发布芯片许可和人工智能系统监管指南

新指南旨在增强国家安全、经济实力拜登-哈里斯政府发布了新的指南，以规范芯片许可和人工智能系统，同时加强人工智能安全标准。白宫的一份声明称，周一发布的《人工智能扩散临…

王浩然
2025年1月15日
000
AI前沿

OpenAI推出全新工具套件，助力企业高效构建AI代理

在人工智能（AI）技术日新月异的今天，OpenAI再次走在行业前沿，为帮助企业更好地利用AI技术，推出了全新的工具套件。这一工具套件旨在简化AI代理的构建过程，使更多企业能够轻松驾…

王浩然
2025年3月13日
000
AI前沿

应对副驾驶的安全风险

越来越多的企业正在使用副驾驶和低代码平台，使员工（即使是那些技术专长很少或没有技术专长的员工）能够创建强大的副驾驶和业务应用程序，以及处理大量数据。 Zenity 的一份新报告《2…

点点
2024年9月25日
000
AI前沿

亚马逊携手AI机器人，开启仓库自动化新纪元

亚马逊与机器人软件公司Covariant签署了一项新的商业协议，包括聘用该公司的员工，以加速其仓库的自动化进程。通过新协议，亚马逊将获得 Covariant 机器人基础模型的非…

点点
2024年9月7日
000
AI前沿

OpenAI 的代理时代开始了：ChatGPT Tasks 提供作业调度、提醒等功能

ChatGPT 发布了一项名为 Tasks 的新功能，朝着成为成熟的个人助理迈出了重要一步。这可能预示着OpenAI未来将发布更多代理。 Tasks 目前处于测试阶段，可让 Cha…

王浩然
2025年1月15日
000