人工智能行业对 Chatbot Arena 非常着迷，但它可能不是最好的基准

王浩然 • 2024年9月8日下午1:00 • AI前沿 • 365 views

在过去的几个月里，埃隆·马斯克等科技高管一直在吹捧其公司人工智能模型在特定基准：Chatbot Arena 上的表现。

Chatbot Arena 由一个名为 LMSYS 的非营利组织维护，已成为业界关注的焦点。其模特排行榜更新帖子在 Reddit 和 X 上获得了数百次浏览和转发，官方LMSYS X 帐户拥有超过 54,000 名粉丝。仅去年一年，就有数百万人访问了该组织的网站。

不过，对于 Chatbot Arena 是否能够告诉我们这些模型到底有多“好”，仍然存在一些疑问。

寻找新的基准

在深入研究之前，让我们花点时间来了解 LMSYS 到底是什么，以及它为什么如此受欢迎。

该非营利组织于去年 4 月成立，由卡内基梅隆大学、加州大学伯克利分校 SkyLab 和加州大学圣地亚哥分校的学生和教职员工牵头。部分创始成员目前就职于 Google DeepMind、马斯克的 xAI 和 Nvidia；如今，LMSYS 主要由 SkyLab 附属研究人员运营。

LMSYS 的初衷并不是创建一个病毒式模型排行榜。该团队的成立使命是通过共同开发和开源的方式，让模型（特别是 OpenAI 的ChatGPT之类的生成模型）更容易获得。但在 LMSYS 成立后不久，其研究人员对 AI 基准测试的现状感到不满，他们看到了创建自己的测试工具的价值。

研究人员在 3 月份发表的一篇技术论文中写道：“当前的基准测试未能充分满足最先进模型的需求，特别是在评估用户偏好方面。因此，迫切需要一个基于人类偏好的开放、实时评估平台，以更准确地反映现实世界的使用情况。”

事实上，正如我们之前所写，当今最常用的基准在捕捉普通人与模型的互动方面做得很差。基准测试所探究的许多技能（例如解决博士级数学问题）很少与使用 Claude 等模型的大多数人相关。

LMSYS 的创建者也有类似的感受，因此他们设计了一个替代方案：Chatbot Arena，这是一个众包基准，旨在捕捉模型的“细微”方面及其在开放式现实任务中的表现。

Screenshot-2024-09-04-at-5.50.58PM — 截至 2024 年 9 月初的 Chatbot Arena 排名。

Chatbot Arena 允许网络上的任何人向两个随机选择的匿名模型提出一个或多个问题。一旦一个人同意服务条款，允许他们的数据用于 LMSYS 未来的研究、模型和相关项目，他们就可以从两个对决模型中投票选出他们喜欢的答案（他们也可以宣布平局或说“两者都不好”），此时模型的身份就会被揭示。

Screenshot-2024-09-04-at-2.07.55PM — Chatbot Arena 界面。

研究人员在 3 月份的论文中写道，这种流程产生了典型用户可能会向任何生成模型提出的“各种各样”的问题。“利用这些数据，我们采用了一套强大的统计技术 […] 以尽可能可靠和高效地估计模型的排名，”他们解释说。

自 Chatbot Arena 推出以来，LMSYS 已在其测试工具中添加了数十个开放模型，并与穆罕默德·本·扎耶德人工智能大学 (MBZUAI)等大学以及 OpenAI、谷歌、Anthropic、微软、Meta、Mistral 和 Hugging Face 等公司合作，提供他们的模型供测试。Chatbot Arena 现在拥有 100 多个模型，包括多模式模型（可以理解文本以外数据的模型），例如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。

已有超过一百万个提示和答案对以这种方式提交和评估，产生了大量排名数据。

偏见和缺乏透明度

在 3 月份的论文中，LMSYS 的创始人声称 Chatbot Arena 用户贡献的问题“足够多样化”，可以作为一系列 AI 用例的基准。他们写道：“由于其独特的价值和开放性，Chatbot Arena 已成为最受参考的模型排行榜之一。”

但研究结果到底有多大参考价值呢？这还有待商榷。

非营利组织艾伦人工智能研究所 (Allen Institute for AI )的研究科学家Yuchen Lin表示，LMSYS 尚未完全公开其在 Chatbot Arena 上评估的模型能力、知识和技能。今年 3 月，LMSYS 发布了数据集LMSYS-Chat-1M，其中包含用户与 Chatbot Arena 上的 25 个模型之间的一百万次对话。但此后它一直没有更新数据集。

林说：“评估是不可重复的，而且 LMSYS 发布的有限数据使得深入研究模型的局限性变得具有挑战性。”

Screenshot-2024-09-04-at-5.49.18PM — 使用 Chatbot Arena 的工具比较两个模型。

LMSYS 详细介绍了其测试方法，其研究人员在 3 月份的论文中表示，他们利用“高效的采样算法”让模型相互竞争，“以加速排名收敛同时保持统计有效性的方式”。他们写道，LMSYS 在刷新 Chatbot Arena 排名之前，每个模型大约会收集 8,000 票，而这个门槛通常会在几天后达到。

但林认为，投票并没有考虑到人们识别模型幻觉的能力（或无能力），也没有考虑到人们的偏好差异，这使得他们的投票不可靠。例如，一些用户可能喜欢较长的markdown 风格的答案，而其他用户可能更喜欢更简洁的回答。

结果是，两个用户可能会对同一对答案给出相反的答案，而且这两个答案都同样有效——但这从根本上质疑了这种方法的价值。直到最近，LMSYS 才尝试控制 Chatbot Arena 中模型响应的“风格”和“内容”。

“收集到的人类偏好数据无法解释这些细微的偏见，而且平台无法区分‘A 明显优于 B’和‘A 仅略优于 B’，”林说。“虽然后期处理可以减轻其中一些偏见，但原始的人类偏好数据仍然很嘈杂。”

伦敦玛丽女王大学专门研究人工智能和游戏设计的研究员迈克·库克 (Mike Cook)同意林的评估。“你可以在 1998 年举办 Chatbot Arena，当时仍然谈论排名的急剧变化或强大的聊天机器人，但结果会很糟糕，”他补充道，并指出虽然 Chatbot Arena 被设计为实证测试，但它相当于对模型的相对评级。

Chatbot Arena 面临的更大偏见是其当前的用户群构成。

林说，由于该基准测试几乎完全是通过人工智能和科技行业圈子的口口相传而流行起来的，因此不太可能吸引到非常具有代表性的人群。他的理论值得信赖，LMSYS-Chat-1M 数据集中的主要问题涉及编程、人工智能工具、软件错误和修复以及应用程序设计——而不是非技术人员会问的那些问题。

“测试数据的分布可能无法准确反映目标市场的真实人类用户，”林说。“此外，该平台的评估过程在很大程度上是不可控的，主要依靠后处理为每个查询贴上各种标签，然后用于制定特定任务的评级。这种方法缺乏系统的严谨性，因此很难仅根据人类偏好来评估复杂的推理问题。”

Screenshot-2024-09-04-at-9.58.35PM — 在 Chatbot Arena 中测试多模式模型。

库克指出，由于 Chatbot Arena 用户是自我选择的——他们首先对测试模型感兴趣——他们可能不太热衷于压力测试或将模型推向极限。

“总的来说，这不是开展研究的好方法，”库克说。“评估人员会提出问题并投票选出哪个模型‘更好’——但 LMSYS 并没有真正定义‘更好’。在这个基准上表现优异可能会让人们认为获胜的人工智能聊天机器人更人性化、更准确、更安全、更值得信赖等等——但这并不意味着这些。”

LMSYS 正尝试通过使用自动化系统（MT-Bench 和 Arena-Hard-Auto）来平衡这些偏见，这些系统使用模型本身（OpenAI 的 GPT-4 和 GPT-4 Turbo）对其他模型的响应质量进行排名。（LMSYS 将这些排名与投票一起发布）。但是，尽管 LMSYS声称模型 “很好地匹配了受控和众包的人类偏好”，但问题远未解决。

林表示，LMSYS 日益增长的商业联系是人们对该排名持怀疑态度的另一个原因。

一些供应商（如 OpenAI）通过 API 提供模型，可以访问模型使用数据，如果他们愿意，可以使用这些数据进行“针对测试的教学”。林说，这使得测试过程对在 LMSYS 自己的云上运行的开放静态模型可能不公平。

“公司可以不断优化其模型，以更好地适应 LMSYS 用户分布，这可能会导致不公平竞争和评估意义的减弱，”他补充道。“通过 API 连接的商业模型可以访问所有用户输入数据，让拥有更多流量的公司更具优势。”

库克补充道：“LMSYS 并没有鼓励新颖的人工智能研究或类似的东西，而是鼓励开发人员调整微小的细节，以在措辞上超越竞争对手。”

LMSYS 也得到了一些组织的赞助，其中一个是风险投资公司，它在人工智能竞赛中占有一席之地。

Screenshot-2024-09-04-at-5.53.49PM — LMSYS 的企业赞助。

Google 的 Kaggle 数据科学平台已向 LMSYS 捐款，Andreessen Horowitz（其投资包括Mistral）和Together AI也同样如此。Google 的 Gemini 模型在 Chatbot Arena 上，Mistral 和 Together 的模型也是如此。

LMSYS 在其网站上表示，它还依靠大学资助和捐赠来支持其基础设施，并且其赞助（以硬件和云计算积分以及现金形式提供）均无“附加条件”。但这些关系给人的印象是 LMSYS 并非完全公正，特别是当供应商越来越多地使用 Chatbot Arena 来为他们的模型招揽期待时。

LMSYS 没有回应 TechCrunch 的采访请求。

更好的基准？

林认为，尽管 LMSYS 和 Chatbot Arena 存在缺陷，但它们提供了一项有价值的服务：实时了解不同模型在实验室外的表现。

“Chatbot Arena 超越了传统的针对多项选择基准进行优化的方法，这些基准通常已经饱和，并不直接适用于现实世界，”Lin 说道。“该基准提供了一个统一的平台，真实用户可以与多个模型进行交互，从而提供更动态、更现实的评估。”

但是——随着 LMSYS 继续为 Chatbot Arena 添加功能（例如更多自动化评估），Lin 认为该组织可以采取一些容易实现的措施来改进测试。

他认为，为了更“系统地”了解模型的优势和劣势，LMSYS 可以围绕不同的子主题（如线性代数）设计基准，每个子主题都有一组特定领域的任务。他说，这将使 Chatbot Arena 的结果更具科学性。

“尽管 Chatbot Arena 可以提供用户体验的快照——尽管来自一个很小且可能不具代表性的用户群——但它不应被视为衡量模型智能的最终标准，”林说。“相反，它更适合被视为衡量用户满意度的工具，而不是衡量人工智能进步的科学和客观标准。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ren-gong-zhi-neng-hang-ye-dui-chatbot-arena-fei-chang-zhao

Like (0)

王浩然作者

0 0

谷歌扩展人工智能虚拟试穿工具，将礼服也纳入其中

Previous 2024年9月8日下午12:00

人工智能如何影响人类关键决策

Next 2024年9月8日下午2:00

AI前沿

Inflection AI 首席执行官表示已完成开发下一代 AI 模型的尝试

就在去年，Inflection AI 还是一家炙手可热的初创公司，它发布了一流的人工智能模型，声称其性能可以超越 OpenAI、Meta 和谷歌的技术。这与今天形成了鲜明的对比，I…

王浩然
2024年11月29日
000
AI前沿

以下是增强 AI 性能的 3 个关键 LLM 压缩策略

在当今快节奏的数字环境中，依赖人工智能的企业面临着新的挑战：运行人工智能模型的延迟、内存使用和计算能力成本。随着人工智能的快速发展，支持这些创新的模型变得越来越复杂和资源密集。虽然…

王浩然
2024年11月11日
000
AI前沿

无论你喜欢与否，人工智能正在学习如何影响你

当我还是个孩子的时候，我的生活中曾出现过四个人工智能特工。他们的名字分别是 Inky、Blinky、Pinky 和 Clyde，他们竭尽全力追捕我。那是 20 世纪 80 年代…

王浩然
2025年2月18日
000
AI前沿

研究表明，人工智能模型在用西班牙语提问时错误率更高

人工智能模型很难用西班牙语准确回答与选举相关的问题。这是AI Democracy Projects 的一项新研究得出的结论，该项目是 Proof News、事实核查服务 Fact…

王浩然
2024年10月31日
000
AI前沿

DeepSeek 首个推理模型 R1-Lite-Preview 引人注目，超越 OpenAI o1 表现

DeepSeek是中国量化对冲基金High-Flyer Capital Management旗下的 AI 分支，专注于发布高性能开源技术，现已推出其最新的以推理为重点的大型语言模型…

王浩然
2024年11月24日
000
AI前沿

前Palantir 首席信息安全官 Dane Stuckey 加入 OpenAI 领导安全事务

分析公司 Palantir 的前 CISO Dane Stuckey 已加入 OpenAI 担任其最新 CISO，与 OpenAI 安全主管 Matt Knight 一起共事。斯…

王浩然
2024年10月18日
000
AI前沿

为什么微服务可能会随着单体应用的强势回归而终结

随着科技公司认识到单片架构的局限性，向微服务的转变在 2010 年代初开始获得发展势头。然而，亚马逊 (Prime Video)、Invision、Istio 和 Segment等…

王浩然
2024年12月1日
000
AI前沿

出现了一种神秘的新图像生成模型

一种神秘的新图像生成模型在众包人工智能分析基准上击败了 Midjourney、Black Forest Labs 和 OpenAI 的模型。该模型名为“ red_pa nda…

王浩然
2024年10月29日
000
AI前沿

OpenAI获英伟达B200最强超算，GPT-5训练无底洞，微软算力却严重不足

就在刚刚，OpenAI收到了来自英伟达的首批工程版DGX B200！此情此景，不得不让人联想到，刚刚成立的OpenAI在接收英伟达初代DGX时的画面。如今，早已物是人非。依然…

点点
2024年10月9日
000
AI前沿

Verizon 以 200 亿美元收购 Frontier Communications

此次收购扩大了 Verizon 的覆盖范围，并扩展了其智能边缘网络，以实现包括人工智能和物联网在内的数字创新

点点
2024年9月7日
000
AI前沿

谷歌的 Whisk AI 生成器将“重新混合”你输入的图片

谷歌宣布了一款名为 Whisk 的新 AI 工具，该工具可让您使用其他图像作为提示来生成图像，而不需要长文本提示。使用 Whisk，您可以提供图像来建议您想要的主题、场景和 AI…

王浩然
2024年12月28日
000
AI前沿

人工智能育儿已然到来，a16z 已做好准备

人工智能希望帮助我们更好地驾驶、更好地书写和更快地诊断疾病。现在想象一下人工智能帮助你成为更好的父母。安德森·霍洛维茨基金合伙人贾斯汀·摩尔 (Justine Moo…

王浩然
2024年11月8日
000
AI前沿

苹果AI背后的秘密大招，为每个人定制“隐私保安”，《连线》深度拆解苹果私密云计算技术PCC

智东西9月12日消息，本周苹果公司刚刚发布了全新的iPhone 16系列手机新品，并同步推出了最新iOS 18系统，其中的最大亮点就是内置的苹果AI功能（Apple Intelli…

点点
2024年9月13日
000
AI前沿

售价高达100万的AI产品，有钱人排队求买，为什么？

从帝王将相到亿万富豪，永生一直是掌握权力和财富的人类金字塔尖阶层的执念。过去他们把财富投入到虚无缥缈的寻仙问道，以及延年益寿的生物科技，而随着 AI 的出现，赛博永生引起了富豪们的…

点点
2024年9月22日
000
AI前沿

2024 年证明控制人工智能是可能的

今年几乎所有的人工智能重大新闻都是关于该技术发展速度有多快、它造成的危害，以及关于它多久会发展到人类无法控制的程度的猜测。但 2024 年，各国政府也在监管算法系统方面取得了重大进…

王浩然
2024年12月26日
000
AI前沿

Runway 的全新 AI 图像生成器 Frames 现已推出，其画面效果非常具有电影感

AI 媒体技术提供商Runway宣布推出其最新的文本转图像生成模型 Frames，该模型因制作出极具电影感的视觉效果而赢得了用户的早期赞誉——鉴于 Runway 主要以 AI 视频…

王浩然
2025年1月18日
000
AI前沿

自主移动机器人如何改变零售客户体验

目前，零售业AI的市场规模预估约为90亿美元，预计到2029年将达到400亿美元。在零售食品行业盛会GroceryTech 2024上，CEO和CIO们谈到了对AI的日益关注，同时…

点点
2024年9月17日
000
AI前沿

为你点击的人工智能：微软的研究指出了 GUI 自动化的未来

微软研究人员和学术合作伙伴进行的一项全面的新调查显示，由大型语言模型 (LLM) 驱动的人工智能代理越来越能够控制图形用户界面 (GUI)，从而有可能改变人类与软件的交互方式。这…

王浩然
2024年12月1日
000
AI前沿

进入“Whisperverse”：人工智能语音代理将如何指导我们度过每一天

人们普遍批评大型科技公司，称它们的平台将用户视为可以通过定向广告赚钱的玻璃眼球。这种情况很快就会改变，但这并不是因为科技平台不再积极瞄准用户。相反，我们的耳朵即将成为最有效的渠道，…

王浩然
2024年11月4日
000
AI前沿

小而强大：H2O.ai 的新 AI 模型在文档分析领域挑战科技巨头

开源 AI 平台提供商H2O.ai今天宣布了两种新的视觉语言模型，旨在改进文档分析和光学字符识别 (OCR) 任务。这两个模型名为H2OVL Mississippi-2B和H2OV…

王浩然
2024年10月19日
000