并非越大越好：探讨数百万令牌大型语言模型的商业案例

王浩然 • 2025年4月14日下午12:00 • AI前沿 • 44 views

在人工智能领域，大型语言模型（LLMs）正朝着数百万令牌的容量迈进，这一趋势引发了AI界的热烈讨论。模型如MiniMax-Text-01拥有400万令牌的容量，而Gemini 1.5 Pro则能同时处理高达200万令牌的信息。它们承诺将带来颠覆性的应用，能够在一次推理调用中分析整个代码库、法律合同或研究论文。然而，这些巨大的上下文窗口是否真的能为企业带来实际的商业价值？本文将深入探讨这一技术背后的技术经济权衡、基准测试挑战以及不断演变的企业工作流程。

上下文长度的竞赛

LLMs竞赛的核心在于上下文长度——即AI模型能够处理和记忆的文本量。更长的上下文窗口允许机器学习模型在单个请求中处理更多信息，从而减少了将文档拆分成子文档或分割对话的需要。例如，一个400万令牌容量的模型能够一次性消化10,000页书籍的内容。

理论上，这应意味着更好的理解和更复杂的推理能力。但在现实中，这些巨大的上下文窗口是否真的能转化为实际的商业价值？

技术与经济的权衡

随着企业权衡扩展基础设施的成本与潜在的生产力和准确性提升，一个关键问题浮现：我们是在解锁AI推理的新领域，还是在没有实质性改进的情况下，仅仅扩大了令牌内存的极限？

对于企业而言，能够分析整个合同、调试大型代码库或总结长篇报告而不中断上下文的AI无疑具有巨大吸引力。这有望消除诸如分块或检索增强生成（RAG）等临时解决方案，使AI工作流程更加顺畅和高效。

然而，早期采用者报告了一些挑战。例如，JPMorgan Chase的研究表明，模型在大约75%的上下文中表现不佳，且在处理复杂金融任务时，性能在超过32K令牌后会急剧下降到接近零。模型在处理长距离回忆时仍然普遍存在困难，往往优先考虑最近的数据而非更深入的见解。

检索增强生成（RAG）的对比

RAG将LLMs的力量与检索系统相结合，从外部数据库或文档存储中检索相关信息。这允许模型基于预先存在的知识和动态检索的数据生成响应。随着企业采用AI处理复杂任务，他们面临一个关键决策：使用具有大上下文窗口的巨大提示，还是依赖RAG动态检索相关信息。

虽然大提示简化了工作流程，但它们需要更多的GPU功率和内存，从而在规模上成本高昂。相比之下，基于RAG的方法尽管需要多个检索步骤，但通常能减少整体令牌消耗，从而降低推理成本而不牺牲准确性。

企业应如何抉择？

对于大多数企业而言，最佳方法取决于具体用例。当需要深入理解时，大上下文窗口非常有价值。例如，Google的研究表明，使用128K令牌窗口分析10年收益记录的股票预测模型比RAG高出29%的性能。然而，对于GitHub Copilot的内部测试显示，对于monorepo迁移任务，RAG的速度比大上下文模型快2.3倍。

未来的方向：混合系统

尽管400万令牌模型令人印象深刻，但企业应将其视为专用工具而非通用解决方案。未来在于混合系统，它们能够自适应地在RAG和大提示之间做出选择。此外，像GraphRAG这样的新兴创新可以通过将知识图谱与传统向量检索方法相结合，进一步增强这些自适应系统，以更好地捕获复杂关系，从而提高细致推理和答案精度。

结论

随着AI技术的不断发展，企业需审慎评估大型语言模型的适用性。扩展上下文长度而不提升推理能力，无异于建造更宽却无法引导车辆的公路。未来的AI模型将真正理解任何上下文规模内的关系，而企业则需根据任务复杂性、成本和延迟来明智地选择技术路径。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/bing-fei-yue-da-yue-hao-tan-tao-shu-bai-wan-ling-pai-da

AI发展趋势 GraphRAG 上下文长度企业工作流程商业价值大型语言模型技术经济权衡推理能力检索增强生成混合系统

Like (0)

王浩然作者

0 0

Writer发布AI HQ平台：以智能代理重塑企业工作流程

Previous 2025年4月13日

超越ARC-AGI：GAIA与寻找真正的智能基准

Next 2025年4月14日

AI前沿

薪资初创公司 Warp 与发表白人至上言论的“关联公司”断绝关系

Warp是纽约的一家年轻的薪资初创公司，由于与该公司关联的一个账户发布了一些有争议的帖子而备受关注。周四，一个名为维托里奥 (Vittorio) 的账户在 X 上发帖称，“我更喜…

点点
2024年9月8日
000
AI前沿

2024 年无法实现的人工智能智能手机

过去一年，我报道了美国每款主要手机的发布，每款手机都在大声宣告同一件事：人工智能已经到来，我们的手机就是你们期待已久的人工智能手机。每款手机都赢得了热烈掌声和利好消息。但当我拿到这…

王浩然
2024年12月28日
000
AI前沿

Anthropic 的代理计算机使用正在赋予人们“超能力”

Anthropic发布其新的 Claude 功能“计算机使用”仅两天时间，但不同技术能力的早期采用者已经找到了各种方法来使用它——从复杂的编码任务到深入研究，再到收集“分散”的信息…

王浩然
2024年10月27日
000
AI前沿

未来博物馆设计新范式：对话创意总监布兰登·麦吉特里克

在迪拜的沙漠天际线上，一座银色的环形建筑如同来自科幻电影中的太空站，吸引着全球目光——这便是被誉为“2071年时间胶囊”的迪拜未来博物馆。作为该项目创意总监的布兰登·麦吉特里克，在…

王浩然
2025年4月2日
000
AI前沿

Mistral 推出了审核 API

人工智能初创公司 Mistral推出了一种用于内容审核的新 API。 Mistral 表示，该 API 与支持 Mistral 的 Le Chat 聊天机器人平台审核的 API 相…

王浩然
2024年11月8日
000
AI前沿

什么阻碍了数字孪生的演进和应用？

数字孪生技术具有巨大的潜力，它能够创建物理对象、流程和环境的数字复制品，可应用于各个行业，从复制危险环境到展示用于远程培训的航天器。麦肯锡最近的分析表明，人们对数字孪生的兴趣非常浓…

点点
2024年10月24日
000
AI前沿

新兴技术助力超级碗 LIX 的 7 种方式

今年的超级碗对决在费城老鹰队和堪萨斯城酋长队之间展开，物联网和新兴技术再次携手为这一盛事助力。超级碗 LIX 充满了场内场外为比赛提供动力的技术，从机器人技术和增强现实技术到增强…

王浩然
2025年2月8日
000
AI前沿

Arcee AI 推出 SuperNova：一种可定制、符合指令的企业模型

Arcee AI今天推出了SuperNova，这是一个专为企业部署而设计的 700 亿参数语言模型，具有先进的指令跟踪功能和完整的自定义选项。该模型旨在为 OpenAI 和 Ant…

王浩然
2024年9月17日
000
AI前沿

Verizon 以 200 亿美元收购 Frontier Communications

此次收购扩大了 Verizon 的覆盖范围，并扩展了其智能边缘网络，以实现包括人工智能和物联网在内的数字创新

点点
2024年9月7日
000
AI前沿

aiOla 推出开源AI 音频转录模型，可实时隐藏敏感信息

希望使用人工智能模型来转录高管、员工和客户的音频（特别是人类语音）的企业可能会对人工智能程序监听和记录敏感信息的想法持谨慎态度。然而，以色列音频 AI 初创公司aiOla有一个新…

王浩然
2024年11月23日
000
AI前沿

GPT-4o：OpenAI推出原生图像生成功能，惊艳用户

引言‌ 自OpenAI在2024年5月发布其首款“全能”或多模态模型GPT-4o以来，近一年的时间里，这款模型始终保持着强大的竞争力。而今，OpenAI再次为ChatGPT的Plu…

王浩然
2025年3月27日
000
AI前沿

微软开始向出版商支付 Copilot 展示内容的费用

微软将向出版商支付在 Copilot Daily 中出现的内容的费用，Copilot Daily 是其基于 AI 的跨平台助手 Copilot 的一项新功能。 Copilot Da…

点点
2024年10月2日
000
AI前沿

Adobe Photoshop 评测：为何其 AI 工具让它无与伦比

Adobe Photoshop ：图像编辑软件的巅峰之作。第一次打开它时，我既惊叹又被它的功能所震撼。我在纽约市为期三个月的密集设计课程中花了最多的时间使用它。我记得当时觉得用“…

AI评测师
2024年9月19日
000
AI前沿

OpenAI的O3模型在基准测试中表现不及预期‌

在人工智能领域，每一次技术的飞跃都伴随着无数的期待与挑战。近日，OpenAI公司推出的O3模型在业界引起了广泛关注，但令人意外的是，该模型在某一基准测试中的得分远低于公司最初的预期…

王浩然
2025年4月21日
000
AI前沿

从意图到执行：微软如何将大型语言模型转变为行动导向型人工智能

大型语言模型 (LLM)改变了我们处理自然语言处理的方式。它们可以回答问题、编写代码和进行对话。然而，它们在处理实际任务时却力不从心。例如，LLM 可以指导您购买夹克，但不能为您下…

王浩然
2025年1月12日
000
AI前沿

谷歌Gemini：现在您可以从iPhone锁屏与之对话‌

谷歌近日宣布了一项令人兴奋的新功能——用户现在可以直接从iPhone的锁屏界面与谷歌Gemini进行语音交互。这一创新功能极大地提升了用户与智能助手的互动体验，使得信息获取和服务调…

王浩然
2025年3月5日
000
AI前沿

【2024 CX报告】AI成客户体验王牌，成本却让人意外！

一份新报告显示，尽管企业将生成式人工智能(GenAI) 视为改变客户体验 (CX) 的关键因素，但许多企业仍为实施成本而苦恼。该研究结果来自 CallMiner 的《2024 年客…

点点
2024年9月11日
000
AI前沿

‌TikTok终止创作者市场，推出集成AI工具的TikTok One平台‌

短视频平台TikTok近期宣布，将正式终止其创作者市场业务，并推出一个更为全面、集成多种AI工具的新平台——TikTok One。这一变革旨在为用户提供更加丰富和高效的创作体验。 …

王浩然
2025年3月2日
000
AI前沿

研究人员利用《龙与地下城》提高人工智能代理在陌生任务上的表现

有意部署 AI 代理的组织必须首先对其进行微调，尤其是在通常感觉死板的工作流程中。虽然有些组织希望代理只在一个工作流程中执行一种任务，但有时需要将代理带入新环境，希望它们能够适应。…

王浩然
2025年1月11日
000
AI前沿

数千名创意人员签署请愿书，反对人工智能数据抓取

演员凯文·贝肯、小说家石黑一雄、音乐家罗伯特·史密斯、记者兼历史学家西德尼·布卢门撒尔有什么共同点？他们都是 11,500 名签署请愿书的人之一，反对未经许可使用创意作品进行人工智…

王浩然
2024年10月24日
000