
谷歌悄然发布了其热门人工智能模型 Gemini 的重大更新,该模型现在可以解释其推理过程,在数学和科学任务中创下新的性能记录,并提供了 OpenAI 高级服务的免费替代方案。
周二,谷歌人工智能工作室发布了新的Gemini 2.0 闪电思维模型,实验编号为“ Exp-01-21 ”,该模型在美国数学邀请赛(AIME)中取得了 73.3% 的成绩,在GPQA Diamond科学基准中取得了 74.2% 的成绩。这些结果显示出与早期人工智能模型相比的明显改进,并表明谷歌在高级推理方面的实力不断增强。
谷歌 DeepMind 首席执行官Demis Hassabis在 X.com (原 Twitter) 上的一篇文章中写道:“从 AlphaGo 这样的程序开始,我们十多年来一直在开拓这些类型的规划系统,很高兴看到这些想法与最强大的基础模型的强大结合。”
Gemini 2.0 闪电思维打破百万代币处理纪录
该模型最引人注目的特点是它能够处理多达一百万个文本标记(比OpenAI 的 o1 Pro 模型多五倍),同时保持更快的响应时间。这种扩展的上下文窗口允许模型同时分析多篇研究论文或大量数据集,这一功能可能会改变研究人员和分析师处理大量信息的方式。
“作为第一次实验,我选取了各种宗教和哲学文本,并让 Gemini 2.0 闪电思维将它们编织在一起,提取出新颖独特的见解,”测试该模型的人工智能研究员Dan Mac在X.com 的一篇文章中说道。“它总共处理了 970,000 个 token。产出相当惊人。”
此次发布正值人工智能行业发展的关键时刻。OpenAI 最近宣布了其o3 模型,该模型在 GPQA Diamond 基准测试中获得了 87.7% 的分数。然而,谷歌决定在 Beta 测试期间免费提供其模型(有使用限制),这可能会吸引那些寻求替代OpenAI 每月 200 美元订阅服务的开发人员和企业。

谷歌免费提供 Gemini 2.0 Flash Thinking,内置代码执行功能
谷歌 DeepMind 首席科学家Jeff Dean强调了模型可靠性的提升:“我们正在不断迭代,提高可靠性,减少模型思维和最终答案之间的矛盾”,他写道。
该模型还包含本机代码执行功能,允许开发人员直接在系统内运行和测试代码。此功能与改进的矛盾保护措施相结合,使 Gemini 2.0 Flash Thinking 成为研究和商业应用的有力竞争者。
行业分析师指出,谷歌专注于解释其推理过程,这可能有助于解决人们对人工智能透明度和可靠性日益增长的担忧。与传统的“黑箱”模型不同,Gemini 2.0 闪电思维展示了其工作,使用户更容易理解和验证其结论。
谷歌挑战 OpenAI,AI 透明度成为新战场
该模型已经在Chatbot Arena 排行榜上占据榜首,这是人工智能性能的著名基准,在硬提示、编码和创意写作等类别中处于领先地位。
然而,该模型的实际性能和局限性仍然存在疑问。虽然基准测试分数提供了有价值的指标,但它们并不总是直接转化为实际应用。谷歌的挑战将是让企业客户相信其免费产品可以匹敌或超越付费替代品的功能。
随着人工智能军备竞赛愈演愈烈,谷歌的最新版本表明其战略发生了转变:将先进功能与可访问性相结合。这种方法是否有助于缩小与 OpenAI 的差距还有待观察,但它无疑为技术决策者提供了一个令人信服的理由来重新考虑他们的人工智能合作伙伴关系。
目前,有一点是清楚的:可以展示其工作的人工智能时代已经到来,任何拥有 Google 帐户的人都可以使用它。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gu-ge-fa-bu-mian-fei-gemini-2-flash-thinking-mo-xing-dui