
上周,中国人工智能初创公司DeepSeek宣布其最新语言模型 DeepSeek-R1 震惊了人工智能界。该模型似乎可以与领先的美国人工智能系统相媲美,但成本却只有后者的一小部分。这一消息引发了市场大规模抛售,导致英伟达市值蒸发近 2000 亿美元,并引发了关于人工智能发展未来的激烈争论。
很快出现的说法表明,DeepSeek 从根本上颠覆了构建先进 AI 系统的经济性,据称仅用 600 万美元就实现了美国公司花费数十亿美元才实现的目标。这种解释在硅谷引起了轩然大波,OpenAI、Anthropic和谷歌等公司都在计算基础设施方面进行了大规模投资,以保持其技术优势。
但在市场动荡和令人窒息的头条新闻中,Anthropic 联合创始人、当今大型语言模型 (LLM) 背后的先驱研究人员之一Dario Amodei发表了一篇详细分析文章,对 DeepSeek 的成就提供了更细致入微的视角。他的博客文章打破了这种歇斯底里的局面,提供了一些关于 DeepSeek 实际成就及其对未来 AI 发展意义的重要见解。
以下是 Amodei 分析的四个关键见解,它们重塑了我们对 DeepSeek 公告的理解。
1. “600 万美元模式”的叙述忽略了关键背景
Amodei 表示, DeepSeek 报告的开发成本需要从更广阔的角度来看待。他直接挑战了流行的解释:
“DeepSeek 不会‘以 600 万美元完成美国 AI 公司花费数十亿美元完成的任务’。我只能代表 Anthropic 发言,但 Claude 3.5 Sonnet 是一个中型模型,训练成本高达数千万美元(我不会给出确切数字)。此外,3.5 Sonnet 的训练方式并未涉及更大或更昂贵的模型(与一些传言相反)。”
这一令人震惊的发现从根本上改变了人们对 DeepSeek 成本效益的看法。考虑到Sonnet是在 9-12 个月前训练的,并且在许多任务上仍然优于 DeepSeek 的模型,这一成就似乎更符合人工智能开发成本的自然发展,而不是革命性的突破。
时机和背景也很重要。根据 AI 开发成本降低的历史趋势(Amodei 估计每年大约降低 4 倍),DeepSeek 的成本结构似乎在很大程度上符合趋势,而不是大幅领先。
2. DeepSeek-V3,而不是 R1,才是真正的技术成就
尽管市场和媒体高度关注DeepSeek 的 R1 型号,但 Amodei 指出,该公司更重要的创新来得更早。
“ DeepSeek-V3实际上是真正的创新,一个月前就应该引起人们的注意(我们确实注意到了)。作为预训练模型,它似乎在一些重要任务上的表现接近美国最先进的模型,而训练成本却大大降低。”
V3 和 R1 之间的区别对于理解 DeepSeek 真正的技术进步至关重要。V3 代表了真正的工程创新,特别是在管理模型的“键值缓存”和突破专家混合(MoE) 方法的界限方面。
这一见解有助于解释为什么市场对 R1 的激烈反应可能是错误的。R1 本质上是在 V3 的基础上添加了强化学习功能——目前多家公司正在对其模型采取这一措施。
3. 企业总投资呈现不同面貌
广告
Amodei 的分析中最能说明问题的方面或许是 DeepSeek 对人工智能开发的整体投资。
“据报道——我们无法确定这是真的——DeepSeek 实际上拥有50,000 块 Hopper 代芯片,我猜这大约是美国主要 AI 公司所拥有芯片数量的 2-3 倍。这 50,000 块 Hopper 芯片的成本约为 10 亿美元。因此,DeepSeek 作为一家公司的总支出(不同于训练单个模型的支出)与美国 AI 实验室并没有太大差别。”
这一发现极大地改变了人们对 DeepSeek 资源效率的看法。虽然该公司可能在单个模型训练方面取得了令人印象深刻的成果,但其在 AI 开发方面的整体投资似乎与美国同行大致相当。
模型训练成本与企业总投资之间的差异凸显了大量资源在人工智能开发中持续的重要性。这表明,虽然工程效率可以提高,但要在人工智能领域保持竞争力仍需要大量的资本投入。
4. 当前的“交叉点”是暂时的
广告
Amodei 将人工智能发展的当前时刻描述为独特而短暂的。
“因此,我们正处于一个有趣的‘交叉点’,暂时有几家公司可以制作出良好的推理模型,”他写道。“随着每个人都进一步提升这些模型的扩展曲线,这种情况将很快不再存在。”
这一观察为理解当前人工智能竞争的现状提供了重要的背景。多家公司在推理能力上取得类似成果的能力只是暂时现象,而不是新的现状。
这对人工智能发展的未来意义重大。随着各家公司不断扩大其模型,特别是在资源密集型的强化学习领域,该领域很可能会再次根据谁能在培训和基础设施上投入最多而出现分化。这表明,虽然 DeepSeek 取得了令人印象深刻的里程碑,但它并没有从根本上改变高级人工智能发展的长期经济状况。
构建人工智能的真正成本:Amodei 的分析揭示了什么
Amodei 对 DeepSeek 成就的详细分析打破了数周来的市场猜测,揭示了构建先进 AI 系统的实际经济效益。他的博客文章系统地消除了 DeepSeek 宣布后引发的恐慌和热情,展示了该公司 600 万美元的模型训练成本如何适应 AI 发展的稳步发展。
市场和媒体倾向于简单的叙述,而一家中国公司大幅削减美国人工智能开发成本的故事令人无法抗拒。然而,Amodei 的细分揭示了一个更复杂的现实:DeepSeek 的总投资,尤其是其在计算硬件方面的 10 亿美元,与美国同行的支出相当。
美国和中国人工智能开发成本持平的时刻标志着 Amodei 所说的“交叉点”——一个多家公司可以取得类似成果的临时窗口。他的分析表明,随着人工智能能力的提高和培训需求的增加,这个窗口将会关闭。该领域很可能会重新青睐拥有最深厚资源的组织。
打造先进的人工智能仍是一项耗资巨大的工程,而 Amodei 的仔细分析表明,衡量其真实成本需要全面考察投资范围。他对 DeepSeek 成就的系统分析最终可能比最初引发市场动荡的声明更为重要。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/dario-amodei-zhi-yi-deepseek-600-wan-mei-yuan-de-ai-shuo-fa