在过去的几个月里,埃隆·马斯克等科技高管一直在吹捧其公司人工智能模型在特定基准:Chatbot Arena 上的表现。
Chatbot Arena 由一个名为 LMSYS 的非营利组织维护,已成为业界关注的焦点。其模特排行榜更新帖子在 Reddit 和 X 上获得了数百次浏览和转发,官方LMSYS X 帐户拥有超过 54,000 名粉丝。仅去年一年,就有数百万人访问了该组织的网站。
不过,对于 Chatbot Arena 是否能够告诉我们这些模型到底有多“好”,仍然存在一些疑问。
寻找新的基准
在深入研究之前,让我们花点时间来了解 LMSYS 到底是什么,以及它为什么如此受欢迎。
该非营利组织于去年 4 月成立,由卡内基梅隆大学、加州大学伯克利分校 SkyLab 和加州大学圣地亚哥分校的学生和教职员工牵头。部分创始成员目前就职于 Google DeepMind、马斯克的 xAI 和 Nvidia;如今,LMSYS 主要由 SkyLab 附属研究人员运营。
LMSYS 的初衷并不是创建一个病毒式模型排行榜。该团队的成立使命是通过共同开发和开源的方式,让模型(特别是 OpenAI 的ChatGPT之类的生成模型)更容易获得。但在 LMSYS 成立后不久,其研究人员对 AI 基准测试的现状感到不满,他们看到了创建自己的测试工具的价值。
研究人员在 3 月份发表的一篇技术论文中写道:“当前的基准测试未能充分满足最先进模型的需求,特别是在评估用户偏好方面。因此,迫切需要一个基于人类偏好的开放、实时评估平台,以更准确地反映现实世界的使用情况。”
事实上,正如我们之前所写,当今最常用的基准在捕捉普通人与模型的互动方面做得很差。基准测试所探究的许多技能(例如解决博士级数学问题)很少与使用 Claude 等模型的大多数人相关。
LMSYS 的创建者也有类似的感受,因此他们设计了一个替代方案:Chatbot Arena,这是一个众包基准,旨在捕捉模型的“细微”方面及其在开放式现实任务中的表现。
Chatbot Arena 允许网络上的任何人向两个随机选择的匿名模型提出一个或多个问题。一旦一个人同意服务条款,允许他们的数据用于 LMSYS 未来的研究、模型和相关项目,他们就可以从两个对决模型中投票选出他们喜欢的答案(他们也可以宣布平局或说“两者都不好”),此时模型的身份就会被揭示。
研究人员在 3 月份的论文中写道,这种流程产生了典型用户可能会向任何生成模型提出的“各种各样”的问题。“利用这些数据,我们采用了一套强大的统计技术 […] 以尽可能可靠和高效地估计模型的排名,”他们解释说。
自 Chatbot Arena 推出以来,LMSYS 已在其测试工具中添加了数十个开放模型,并与穆罕默德·本·扎耶德人工智能大学 (MBZUAI)等大学以及 OpenAI、谷歌、Anthropic、微软、Meta、Mistral 和 Hugging Face 等公司合作,提供他们的模型供测试。Chatbot Arena 现在拥有 100 多个模型,包括多模式模型(可以理解文本以外数据的模型),例如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。
已有超过一百万个提示和答案对以这种方式提交和评估,产生了大量排名数据。
偏见和缺乏透明度
在 3 月份的论文中,LMSYS 的创始人声称 Chatbot Arena 用户贡献的问题“足够多样化”,可以作为一系列 AI 用例的基准。他们写道:“由于其独特的价值和开放性,Chatbot Arena 已成为最受参考的模型排行榜之一。”
但研究结果到底有多大参考价值呢?这还有待商榷。
非营利组织艾伦人工智能研究所 (Allen Institute for AI )的研究科学家Yuchen Lin表示,LMSYS 尚未完全公开其在 Chatbot Arena 上评估的模型能力、知识和技能。今年 3 月,LMSYS 发布了数据集LMSYS-Chat-1M,其中包含用户与 Chatbot Arena 上的 25 个模型之间的一百万次对话。但此后它一直没有更新数据集。
林说:“评估是不可重复的,而且 LMSYS 发布的有限数据使得深入研究模型的局限性变得具有挑战性。”
LMSYS 详细介绍了其测试方法,其研究人员在 3 月份的论文中表示,他们利用“高效的采样算法”让模型相互竞争,“以加速排名收敛同时保持统计有效性的方式”。他们写道,LMSYS 在刷新 Chatbot Arena 排名之前,每个模型大约会收集 8,000 票,而这个门槛通常会在几天后达到。
但林认为,投票并没有考虑到人们识别模型幻觉的能力(或无能力),也没有考虑到人们的偏好差异,这使得他们的投票不可靠。例如,一些用户可能喜欢较长的markdown 风格的答案,而其他用户可能更喜欢更简洁的回答。
结果是,两个用户可能会对同一对答案给出相反的答案,而且这两个答案都同样有效——但这从根本上质疑了这种方法的价值。直到最近,LMSYS 才尝试控制 Chatbot Arena 中模型响应的“风格”和“内容”。
“收集到的人类偏好数据无法解释这些细微的偏见,而且平台无法区分‘A 明显优于 B’和‘A 仅略优于 B’,”林说。“虽然后期处理可以减轻其中一些偏见,但原始的人类偏好数据仍然很嘈杂。”
伦敦玛丽女王大学专门研究人工智能和游戏设计的研究员迈克·库克 (Mike Cook)同意林的评估。“你可以在 1998 年举办 Chatbot Arena,当时仍然谈论排名的急剧变化或强大的聊天机器人,但结果会很糟糕,”他补充道,并指出虽然 Chatbot Arena 被设计为实证测试,但它相当于 对模型的相对 评级。
Chatbot Arena 面临的更大偏见是其当前的用户群构成。
林说,由于该基准测试几乎完全是通过人工智能和科技行业圈子的口口相传而流行起来的,因此不太可能吸引到非常具有代表性的人群。他的理论值得信赖,LMSYS-Chat-1M 数据集中的主要问题涉及编程、人工智能工具、软件错误和修复以及应用程序设计——而不是非技术人员会问的那些问题。
“测试数据的分布可能无法准确反映目标市场的真实人类用户,”林说。“此外,该平台的评估过程在很大程度上是不可控的,主要依靠后处理为每个查询贴上各种标签,然后用于制定特定任务的评级。这种方法缺乏系统的严谨性,因此很难仅根据人类偏好来评估复杂的推理问题。”
库克指出,由于 Chatbot Arena 用户是自我选择的——他们首先对测试模型感兴趣——他们可能不太热衷于压力测试或将模型推向极限。
“总的来说,这不是开展研究的好方法,”库克说。“评估人员会提出问题并投票选出哪个模型‘更好’——但 LMSYS 并没有真正定义‘更好’。在这个基准上表现优异可能会让人们认为获胜的人工智能聊天机器人更人性化、更准确、更安全、更值得信赖等等——但这并不意味着这些。”
LMSYS 正尝试通过使用自动化系统(MT-Bench 和 Arena-Hard-Auto)来平衡这些偏见,这些系统使用模型本身(OpenAI 的 GPT-4 和 GPT-4 Turbo)对其他模型的响应质量进行排名。(LMSYS 将这些排名与投票一起发布)。但是,尽管 LMSYS声称模型 “很好地匹配了受控和众包的人类偏好”,但问题远未解决。
商业联系和数据共享
林表示,LMSYS 日益增长的商业联系是人们对该排名持怀疑态度的另一个原因。
一些供应商(如 OpenAI)通过 API 提供模型,可以访问模型使用数据,如果他们愿意,可以使用这些数据进行“针对测试的教学”。林说,这使得测试过程对在 LMSYS 自己的云上运行的开放静态模型可能不公平。
“公司可以不断优化其模型,以更好地适应 LMSYS 用户分布,这可能会导致不公平竞争和评估意义的减弱,”他补充道。“通过 API 连接的商业模型可以访问所有用户输入数据,让拥有更多流量的公司更具优势。”
库克补充道:“LMSYS 并没有鼓励新颖的人工智能研究或类似的东西,而是鼓励开发人员调整微小的细节,以在措辞上超越竞争对手。”
LMSYS 也得到了一些组织的赞助,其中一个是风险投资公司,它在人工智能竞赛中占有一席之地。
Google 的 Kaggle 数据科学平台已向 LMSYS 捐款,Andreessen Horowitz(其投资包括Mistral)和Together AI也同样如此。Google 的 Gemini 模型在 Chatbot Arena 上,Mistral 和 Together 的模型也是如此。
LMSYS 在其网站上表示,它还依靠大学资助和捐赠来支持其基础设施,并且其赞助(以硬件和云计算积分以及现金形式提供)均无“附加条件”。但这些关系给人的印象是 LMSYS 并非完全公正,特别是当供应商越来越多地使用 Chatbot Arena 来为他们的模型招揽期待时。
LMSYS 没有回应 TechCrunch 的采访请求。
更好的基准?
林认为,尽管 LMSYS 和 Chatbot Arena 存在缺陷,但它们提供了一项有价值的服务:实时了解不同模型在实验室外的表现。
“Chatbot Arena 超越了传统的针对多项选择基准进行优化的方法,这些基准通常已经饱和,并不直接适用于现实世界,”Lin 说道。“该基准提供了一个统一的平台,真实用户可以与多个模型进行交互,从而提供更动态、更现实的评估。”
但是——随着 LMSYS 继续为 Chatbot Arena 添加功能(例如更多自动化评估),Lin 认为该组织可以采取一些容易实现的措施来改进测试。
他认为,为了更“系统地”了解模型的优势和劣势,LMSYS 可以围绕不同的子主题(如线性代数)设计基准,每个子主题都有一组特定领域的任务。他说,这将使 Chatbot Arena 的结果更具科学性。
“尽管 Chatbot Arena 可以提供用户体验的快照——尽管来自一个很小且可能不具代表性的用户群——但它不应被视为衡量模型智能的最终标准,”林说。“相反,它更适合被视为衡量用户满意度的工具,而不是衡量人工智能进步的科学和客观标准。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ren-gong-zhi-neng-hang-ye-dui-chatbot-arena-fei-chang-zhao