Mistral Small 3 将开源 AI 带给大众——更小、更快、更便宜

Mistral Small 3 将开源 AI 带给大众——更小、更快、更便宜

迅速崛起的欧洲人工智能初创公司Mistral AI今天推出了一种新的语言模型,该公司声称该模型的性能可与三倍于其规模的模型相媲美,同时大幅降低计算成本——这一进展可能会重塑先进人工智能部署的经济性。

新模型名为Mistral Small 3 ,拥有 240 亿个参数,在标准基准测试中达到 81% 的准确率,同时每​​秒处理 150 个标记。该公司根据宽松的Apache 2.0 许可证发布该模型,允许企业自由修改和部署它。

Mistral 首席科学官 Guillaume Lample 在接受采访时表示:“我们认为它是所有少于 700 亿个参数的模型中最好的模型。我们估计它基本上与几个月前发布的 Meta 的 Llama 3.3 70B 相当,后者的规模是前者的三倍。”

此前,中国初创公司 DeepSeek 声称其仅花费 560 万美元就训练出了一个具有竞争力的模型,此举引发了人们对人工智能开发成本的严格审查。此举导致英伟达的市值本周蒸发近 6000 亿美元,投资者开始质疑美国科技巨头的巨额投资。

Mistral Small 3 将开源 AI 带给大众——更小、更快、更便宜

一家法国初创公司如何构建一个规模很小、可与大型科技公司相媲美的人工智能模型

Mistral 的方法注重效率而非规模。该公司主要通过改进训练技术来实现性能提升,而不是投入更多计算能力来解决问题。

Lample 表示:“改变的基本上是训练优化技术。我们训练模型的方式有点不同,优化模型的方式也不同。”

Lample 表示,该模型在 8 万亿个 token 上进行训练,而同类模型则需要 15 万亿个 token。这种效率可以让担心计算成本的企业更容易获得先进的人工智能功能。

值得注意的是,Mistral Small 3的开发并未采用强化学习或合成训练数据,而这些技术是竞争对手常用的。Lample 表示,这种“原始”方法有助于避免嵌入不必要的偏见,因为这些偏见日后可能难以发现。

Mistral Small 3 将开源 AI 带给大众——更小、更快、更便宜

隐私和企业:为什么企业关注较小的人工智能模型来完成关键任务

该模型特别针对出于隐私和可靠性原因而需要本地部署的企业,包括金融服务、医疗保健和制造公司。据该公司称,它可以在单个 GPU 上运行,并处理 80-90% 的典型业务用例。

“我们的许多客户都希望采用本地解决方案,因为他们关心隐私和可靠性,”Lample 说道。“他们不希望关键服务依赖于他们无法完全控制的系统。”

Mistral Small 3 将开源 AI 带给大众——更小、更快、更便宜

IPO 临近,欧洲 AI 领军企业为开源主导地位奠定基础

此次发布之际,Mistral 的估值为 60 亿美元,将自己定位为全球人工智能竞赛中的欧洲冠军。据首席执行官 Arthur Mensch 称,该公司最近从微软获得了投资,并正在为最终的 IPO做准备。

行业观察人士表示,随着人工智能行业的成熟,Mistral 专注于更小、更高效的模型可能会被证明是具有先见之明的。这种方法与OpenAIAnthropic等专注于开发越来越大、更昂贵的模型的公司形成了鲜明对比。

“我们可能会看到与 2024 年相同的情况,甚至可能比现在更多,基本上是大量具有非常宽松许可证的开源模型,”Lample 预测道。“我们相信这种类型的模型将越来越多地商品化。”

随着竞争加剧和效率提升,Mistral 优化小型模型的策略可能有助于实现高级 AI 功能民主化,从而有可能加速各行业的采用,同时降低计算基础设施成本。

该公司表示,将在未来几周发布具有增强推理能力的更多模型,这将进行一次有趣的测试,看看其以效率为中心的方法是否能够继续匹配更大规模系统的能力。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/mistral-small-3-jiang-kai-yuan-ai-dai-gei-da-zhong-geng

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年2月2日
Next 2025年2月3日

相关推荐

发表回复

Please Login to Comment