Google Gemini 意外超越 OpenAI，跃居第一，但基准测试结果并不能说明全部情况

王浩然 • 2024年11月17日下午2:00 • AI前沿 • 89 views

谷歌凭借其最新实验模型在一项关键的人工智能基准测试中名列前茅，标志着人工智能竞赛发生重大转变——但业内专家警告称，传统的测试方法可能不再有效衡量真正的人工智能能力。

该模型名为“ Gemini-Exp-1114 ”，现已在 Google AI Studio 中推出，在Chatbot Arena 排行榜上，该模型在累计获得 6,000 多张社区投票后，整体表现与OpenAI 的GPT-4o不相上下。这一成就是 Google 迄今为止对 OpenAI 在高级 AI 系统领域的长期主导地位发起的最强挑战。

为什么谷歌破纪录的人工智能得分隐藏着更深的测试危机

测试平台Chatbot Arena报告称，实验版 Gemini 在数学、创意写作和视觉理解等几个关键类别中表现出色。该模型的得分为1344分，比之前的版本提高了 40 分。

然而，这一突破的出现正值越来越多的证据表明，当前的人工智能基准测试方法可能大大简化了模型评估。当研究人员控制响应格式和长度等表面因素时，Gemini 的表现下降到第四位——突显了传统指标可能会夸大感知能力。

这种差异揭示了人工智能评估中的一个根本问题：模型可以通过优化表面特征而不是展示推理或可靠性的真正改进来获得高分。对定量基准的关注引发了一场争夺更高分数的竞赛，而这可能无法反映人工智能的真正进步。

Gemini 的阴暗面：其早期排名靠前的 AI 模型曾生成有害内容

一个广为流传的案例发生在最新模型发布的两天前，Gemini 发布的模型产生了有害的输出，告诉用户“你并不特别，你并不重要，你也不需要”，并补充说“请去死吧”，尽管它的性能得分很高。昨天，另一位用户指出 Gemini 是多么“醒目”，这导致它对因被诊断出患有癌症而感到不安的人做出了反直觉的冷漠反应。新模型发布后，人们的反应褒贬不一，有些人对初步测试并不满意。

基准性能与现实世界安全性之间的脱节凸显了当前的评估方法未能捕捉人工智能系统可靠性的关键方面。

行业对排行榜排名的依赖产生了不良激励。公司针对特定测试场景优化模型，同时可能忽略安全性、可靠性和实用性等更广泛的问题。这种方法产生的 AI 系统擅长完成狭隘的预定任务，但在处理细微的现实世界互动时却举步维艰。

对于谷歌来说，在几个月来一直在追赶OpenAI之后，这次基准测试的胜利代表着极大的士气提升。该公司已通过其AI Studio平台向开发人员提供了实验模型，但尚不清楚该版本何时或是否会被纳入面向消费者的产品中。

人工智能测试方法不足，科技巨头面临分水岭

这一进展正值人工智能行业的关键时刻。据报道，OpenAI 一直在努力通过其下一代模型实现突破性改进，同时对训练数据可用性的担忧也愈演愈烈。这些挑战表明，该领域可能正在接近当前方法的根本极限。

这种情况反映了人工智能发展中更广泛的危机：我们用来衡量进展的标准实际上可能阻碍了它的发展。虽然公司追求更高的基准分数，但他们冒着忽视人工智能安全性、可靠性和实用性等更重要问题的风险。该领域需要新的评估框架，优先考虑现实世界的性能和安全性，而不是抽象的数字成就。

随着整个行业努力突破这些限制，谷歌的基准测试成果最终可能被证明更为重要，因为它揭示了当前测试方法的不足，而非人工智能能力的任何实际进步。

科技巨头之间为获得更高的基准分数而展开的竞争仍在继续，但真正的竞争可能在于开发全新的框架来评估和确保人工智能系统的安全性和可靠性。如果没有这样的改变，该行业可能会针对错误的指标进行优化，同时错失人工智能取得有意义进展的机会。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/google-gemini-yi-wai-chao-yue-openai-yue-ju-di-yi-dan-ji

Like (0)

王浩然作者

0 0

微软押注碳去除竞赛将有助于抵消其飙升的人工智能排放量

Previous 2024年11月17日

Okta 的失败对 2025 年身份安全的未来有何启示

Next 2024年11月17日

AI前沿

为什么人工智能开发人员对 Claude 3.5 的计算机使用功能赞不绝口

Anthropic 刚刚发布了 Claude 3.5，这是其 LLM 系列的一个功能强大的新版本。虽然这个模型带来了改进的推理和编码技能，但真正令人兴奋的是围绕一项名为“计算机使用…

点点
2024年11月5日
000
AI前沿

Nvidia 和 DataStax 让生成式人工智能变得更智能、更精简——具体方法如下

Nvidia和DataStax今天推出了一项新技术，可大幅降低部署生成式 AI 系统的公司的存储要求，同时实现跨多种语言的更快、更准确的信息检索。新的Nvidia NeMo Re…

王浩然
2024年12月18日
000
AI前沿

LlamaIndex推出构建非结构化数据代理的云服务‌

在数字化转型的浪潮中，企业对于非结构化数据的处理能力日益成为竞争的关键。为了满足这一需求，LlamaIndex近日宣布推出了一项创新的云服务，旨在帮助企业轻松构建和管理非结构化数据…

王浩然
2025年3月5日
000
AI前沿

微软的新 rStar-Math 技术升级小型模型，在数学问题上超越 OpenAI 的 o1 预览版

随着rStar-Math 的推出，微软加倍挖掘了小型语言模型 (SLM) 的潜力。rStar -Math是一种新的推理技术，可应用于小型模型，利用推理技术提高其在数学问题上的性能 …

王浩然
2025年1月10日
000
AI前沿

Mach9 为基础设施运营商提供更好的信息

清洁的水、安全的道路、可访问的宽带和电力：这些东西都不是理所当然的。它们依赖于庞大的基础设施网络，这些网络需要不断维护和改进才能正常运转。美国在这方面表现糟糕。美国土木工程师学会 …

王浩然
2024年11月16日
000
AI前沿

可信任的AI Agent是通向智能应用的必经之路

生成式人工智能浪潮下，软件应用正逐渐从以往促进流程、工作流和任务的工具，转变为能够代表终端用户开展工作的智能系统，特别是在企业级市场，软件应用将从仅仅支持业务流程的执行，逐步演变为…

点点
2024年10月17日
000
AI前沿

以下是增强 AI 性能的 3 个关键 LLM 压缩策略

在当今快节奏的数字环境中，依赖人工智能的企业面临着新的挑战：运行人工智能模型的延迟、内存使用和计算能力成本。随着人工智能的快速发展，支持这些创新的模型变得越来越复杂和资源密集。虽然…

王浩然
2024年11月11日
000
AI前沿

为什么情境感知型人工智能代理将在 2025 年赋予我们超能力

2025 年将是大型科技公司从向我们出售越来越强大的工具转变为向我们出售越来越强大的能力的一年。工具和能力之间的区别微妙而深刻。我们将工具用作帮助我们克服有机限制的外部物品。从汽车…

王浩然
2025年1月6日
000
AI前沿

德勤：74% 的企业已达到或超过人工智能计划（但挑战依然存在）

世界各地各种规模的企业都在尝试理解生成式人工智能，并确定其可能带来哪些价值。好消息是：大多数组织实际上都在努力实现这一目标。根据德勤今天发布的一份新报告，大多数企业实际上都达到或…

王浩然
2025年1月22日
000
AI前沿

SambaNova 和 Gradio 让每个人都能使用高速人工智能——其工作原理如下

SambaNova Systems和Gradio推出了一项新的集成，让开发人员只需几行代码即可访问最快的 AI 推理平台之一。此次合作旨在让高性能 AI 模型更易于访问，并加快开发…

王浩然
2024年10月19日
000
AI前沿

Numeric 获 2800 万美元 A 轮融资，利用人工智能实现会计自动化

会计师通常害怕月末和季末结账。这是因为确定特定时期的财务记录通常需要手动操作，容易出错，而且耗时。 2020 年，帕克·吉尔伯特（上图中间）厌倦了在一家早期创业公司管理…

点点
2024年10月13日
000
AI前沿

量子驱动的生成式人工智能框架问世

量子计算公司Quantinuum推出了其生成量子人工智能 (Gen QAI) 框架，这是一种量子驱动人工智能的新方法。该方法利用量子生成的数据来增强人工智能系统，解锁制药、金融建…

王浩然
2025年2月5日
000
AI前沿

RAG性能评估的新纪元：开源框架助力企业科学衡量AI效能

随着企业纷纷投入资源构建检索增强型生成（RAG）系统，一个关键问题逐渐浮现：这些系统是否真的如预期般有效工作？为了填补这一评估盲区，矢量科技（Vectara）携手滑铁卢大学的林吉米…

王浩然
21小时前
000
AI前沿

中国电信利用国产芯片训练具有1万亿参数的AI模型

中国电信是中国国有电信巨头之一，它已设立了两门仅针对国产芯片进行培训的法学硕士课程。这一突破代表着中国在人工智能技术自主化方面不断努力迈出的重要一步，特别是在美国对其竞争对手获取…

点点
2024年10月11日
000
AI前沿

OpenAI：每周服务用户量突破4亿

OpenAI，这家引领人工智能领域发展的先锋企业，近期宣布其每周服务用户量已突破4亿大关。这一里程碑式的成就，标志着OpenAI的技术和服务在全球范围内受到了广泛认可和热烈欢迎。 …

王浩然
2025年2月24日
000
AI前沿

Stable Diffusion 3.5：文本到图像 AI 的架构进步

Stability AI发布了 Stable Diffusion 3.5，标志着文本转图像 AI 模型的又一次进步。此版本代表了一次全面改革，由宝贵的社区反馈和对突破生成式 AI …

点点
2024年10月25日
000
AI前沿

苹果再次将人工智能列入“年度 iPhone 应用程序”候选名单

周一，苹果公布了其令人垂涎的“年度 iPhone 应用”奖入围名单，再次揭示了这家 iPhone 制造商如何淡化人工智能技术对移动应用生态系统的影响。与去年一样，苹果 2024 年…

王浩然
2024年11月30日
000
AI前沿

谷歌日历新增Gemini面板，助力日程管理‌

近日，谷歌在其广受欢迎的日历应用中引入了一项创新功能——Gemini面板。这一新面板旨在为用户提供更为便捷、高效的日程管理方式，从而帮助用户更好地规划日常生活和工作。 Gemini…

王浩然
2025年3月10日
000
AI前沿

技能组合新高度：威胁情报与逆向工程的完美融合

在网络安全的世界里，威胁情报就像是我们的“眼睛”和“耳朵”。通过收集、分析和共享有关潜在威胁的信息，威胁情报帮助我们提前发现并应对安全风险。

点点
2024年9月7日
000
AI前沿

解锁人工智能的投资回报率：成功实施人工智能的策略

企业越来越多地使用人工智能来增强运营，但实现强劲的投资回报率仍然是一项挑战。为了评估人工智能的真正价值，行业领导者应该采取创新和前瞻性的方法。人工智能在收入增长、成本降低、决策、客…

王浩然
2024年8月25日
000