DeepSeek震撼AI行业:AI的下一次飞跃或不再依赖更多数据,而是推理时的更强计算能力‌

DeepSeek震撼AI行业:AI的下一次飞跃或不再依赖更多数据,而是推理时的更强计算能力‌

人工智能领域正以前所未有的速度发展,而近期的突破更是颠覆了已有的认知。2025年初,中国AI实验室DeepSeek发布的新模型,在AI行业内引起了巨大震动,导致Nvidia等AI数据中心需求相关企业的股价骤跌17%。这一市场反应普遍被认为源于DeepSeek展现出的一种能力——以远低于美国竞争对手的成本提供高性能模型,从而引发了关于AI数据中心未来的广泛讨论。

为了深入理解DeepSeek所带来的变革,我们有必要探讨一下AI领域正在经历的由数据稀缺性驱动的广泛转变。由于主要AI实验室已经对互联网上大部分可用公共数据进行了模型训练,数据稀缺性正成为阻碍预训练进一步提升的瓶颈。因此,模型提供商开始探索“推理时间计算”(TTC),即推理模型(如OpenAI的“o”系列模型)在响应问题之前进行“思考”的能力,作为提升模型整体性能的一种替代方法。当前的观点认为,TTC可能会展现出类似于曾经推动预训练发展的缩放定律改进,从而有可能开启AI进步的下一波浪潮。

这些发展表明了两个重要趋势:首先,预算相对较少(据报道)的实验室现在也能够发布最先进的模型。其次,业界开始关注TTC作为AI进步的下一个潜在驱动力。以下,我们将详细分析这两个趋势及其对竞争格局和更广泛的AI市场可能产生的影响。

我们认为,向TTC的转变以及推理模型之间竞争加剧的趋势,可能会对硬件、云平台、基础模型和企业软件等AI领域的各个方面产生一系列影响。然而,如果训练时间的计算能力增长确实已经停滞,那么快速替代的威胁就会减弱。在一个模型性能提升主要来自TTC优化的世界里,应用层玩家可能会迎来新的机遇。针对特定领域的后训练算法创新——如结构化提示优化延迟感知推理策略高效采样技术——可能会为目标垂直领域带来显著的性能提升。

对于像OpenAI的GPT-4oDeepSeek-R1这样的以推理为重点的模型来说,任何性能提升都将具有重要意义,因为它们通常具有多秒的响应时间。在实时应用中,减少延迟并在给定域内提高推理质量可能会提供竞争优势。因此,拥有领域专业知识的应用层公司可能在优化推理效率和微调输出方面发挥关键作用。

DeepSeek的成就表明,业界对不断增加预训练数据量作为提升模型质量的唯一途径的重视程度正在下降。相反,这一发展强调了TTC日益增长的重要性。虽然DeepSeek模型在企业软件应用中的直接采用仍因持续审查而具有不确定性,但它们对推动其他现有模型改进的影响正变得越来越明显。

我们认为,DeepSeek的进步已经促使老牌AI实验室在其工程和研究过程中纳入类似技术,以补充其现有的硬件优势。正如预测的那样,由此导致的模型成本降低似乎正在促进模型使用量的增加,这与杰文斯悖论(Jevons Paradox)的原则相吻合。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepseek-zhen-han-ai-hang-ye-ai-de-xia-yi-ci-fei-yue-huo-bu

Like (0)
王 浩然的头像王 浩然作者
Previous 5天前
Next 5天前

相关推荐

发表回复

Please Login to Comment