2024 年 9 月 5 日,初创公司Hyperwrite AI(也称为 OthersideAI)的联合创始人兼首席执行官马特·舒默 (Matt Shumer) 在社交网络 X上发布了一则重磅消息,称他已将 Meta 的开源 Llama 3.1-70B 版本微调为性能更高的大型语言模型 (LLM),即Reflection 70B — 事实上,根据他发布的所谓第三方基准测试结果,它的性能非常高,据他的帖子称,它是“世界上顶级的开源模型” 。
然而,该研究发布后不久,人工智能研究和托管社区的第三方评估人员就难以重现所声称的结果,从而引发欺诈指控。
研究人员指出,公布的基准测试结果与他们的独立测试结果存在差异,在 Reddit 和 X 等社交平台上引发了一波批评。
为了回应这些担忧,舒默承诺他将与Glaive创始人萨希尔·乔杜里 (Sahil Chaudhary) 一起对这些问题进行审查。舒默声称,他曾使用这家人工智能初创公司的合成数据对 Reflection 70B 进行训练,后来他透露自己曾向该公司投资了一小笔资金。
现在,将近一个月后,Chaudhary 昨晚在他的 Glaive AI 博客上发布了一份关于 Reflection 70B 模型的事后分析报告,并发布了资源供开源 AI 社区自行测试该模型和他的训练过程。他说,虽然他无法重现所有相同的基准,但他“在初始代码中发现了一个错误”,导致几个结果看起来比他在最近的 Reflection 70B 测试中发现的要高。然而,其他基准测试结果似乎比以前更高——这增加了谜团。
正如 Chaudhary 在帖子中写道:
“我们在推出该模型以及处理社区报告的问题的方式上犯了很多错误。我知道这样的事情对开源生态系统产生了重大的负面影响,我为此表示歉意。我希望这能让人们更清楚地了解发生的事情,并朝着重新获得失去的信任的方向迈出一步。我已经发布了独立验证基准和使用此模型所需的所有资产。 ”
共享模型工件
为了恢复透明度和重建信任,Chaudhary 分享了一些资源来帮助社区复制 Reflection 70B 基准。这些资源包括:
- 模型权重:可在Hugging Face上使用,提供Reflection 70B的预训练版本。
- 训练数据:向公众发布,以便对用于微调模型的数据集进行独立测试。
- 训练脚本和评估代码:可在GitHub上获取,这些脚本允许重现模型的训练和评估过程。
这些资源旨在阐明模型是如何开发的,并为社区提供验证原始性能声明的途径。
基准复现工作
Chaudhary 在事后报告中解释说,重现初始基准测试结果的一个主要问题源于评估代码中的一个错误。由于系统处理外部 API 响应的方式存在错误,此错误导致某些任务(如 MATH 和 GSM8K)的分数虚高。与初始报告相比,修正后的基准测试结果略有下降,但仍然很强劲。
Reflection 70B 更新后的基准测试结果如下:
- 莫纳什大学语言学专业:90.94%
- GPQA:55.6%
- 人类评估:89.02%
- 数学:70.8%
- GSM8K:95.22%
- 成功率:87.63%
将其与最初声明的性能进行比较:
- 莫纳什大学语言学专业:89.9%
- GPQA:55.3%
- 人类评价:91%
- 数学:79.7%
- GSM8K:99.2%
- 成功率:90.13%
尽管修改后的分数不如最初报告的分数高,但 Chaudhary 坚称它们更准确地反映了模型的能力。
他还解决了对数据集污染的担忧,确认测试表明训练数据和基准集之间没有明显的重叠。
反思匆忙发布
Chaudhary 承认,发布 Reflection 70B 的决定是仓促做出的,原因是人们对该模型在基于推理的任务上的表现充满热情。
他指出,此次发布缺乏足够的测试,特别是关于模型文件的兼容性,而且他和舒默尚未验证该模型是否可以被社区轻松下载和运行。
Chaudhary 写道:“我们不应该在没有测试的情况下就发布,而且还大肆宣扬拥有最好的开源模型。”他还承认需要更多的透明度,尤其是关于模型的优点和缺点。虽然 Reflection 70B 在推理任务方面表现出色,但它在创造力和一般用户交互等领域表现不佳,这一事实在发布时并未得到传达。
澄清 API 混淆
其中一项更为严重的指控是怀疑 Reflection 70B API 只是中继 Anthropic 的 Claude 模型的输出。
用户报告了该模型输出的奇怪行为,包括似乎直接提及克劳德的响应。
Chaudhary 解决了这些问题,他解释说,尽管其中一些行为是可重现的,但他坚称在 Reflection 70B 模型中没有使用 Claude API 或任何形式的词语过滤。
他重申,该 API 在 Glaive AI 的计算基础设施上运行,而 Matt Shumer 在此期间无法访问所使用的代码或服务器。
展望
最后,Chaudhary 强调了他对透明度的承诺,并表示希望这次事后分析和模型工件的发布将有助于恢复人们对该项目的信任。他还证实,Matt Shumer 将继续独立努力重现基准测试分数。
尽管遭遇挫折,Chaudhary 仍认为“反射调整”方法(即在将响应输出给用户之前,让模型有时间检查其响应的准确性)具有潜力,并鼓励 AI 社区进行进一步的实验。“所探索的方法很有价值,我期待其他人继续探索这种技术,”他说。
Shumer 则在 X 上发帖称:“正如 Sahil 在其事后报告中所写,我自己仍在验证 Reflection,但 Sahil 在其报告的基准测试和运行的 API 上的透明度令我感到鼓舞。我们仍然相信 + 正在努力采用这种方法。希望很快完成我的重现。”
开源人工智能社区的怀疑态度仍然存在
尽管 Chaudhary 声称对 Reflection 70B 发生的事情提供了透明度和无辜的解释,但人工智能社区中许多最初对该模型及其宣称的性能感到兴奋的人仍然持怀疑态度,感觉他们好像被错误的说法所伤害,并且可能之前被欺骗了。
人工智能研究员 Alexander Moini 在 X 上写道:“仍然感觉没有任何进展” ,并补充道,“花了一个月的时间才将模型权重应用到 HF [Hugging Face] 上?”
Hyperbolic Labs是一家按需提供云端 GPU 和其他 AI 服务的初创公司,其联合创始人兼首席技术官 Yuchen Jin最初曾努力且很晚才托管 Reflection 70B,之后又因差异性而批评 Shumer,他也在 X 上对 Chaudhary 的事后报告表示怀疑,指出 Chaudhary 在 X 上声称他“重现了最初报告的除两个分数之外的所有分数”,但实际上这与他提供的数据不符,数据显示,至少有 4 个基准测试的分数从以前到现在发生了变化。
但也许最具批判性的评论来自Reddit 子版块 r/Local LLaMA,其中一位名为“FuckSides”的用户指出,Chaudhary 可能花了一个月的时间对新模型进行微调,以支持他的说法,即它会随机输出文本,表明它实际上是 Anthropic 的 Claude 3.5——这可以解释用户之前体验到的输出,并让他们得出结论,Reflection 70B 是通过 API 提供的另一个专有模型的欺诈性包装器。
与此同时,另一位 Redditor“DangerousBenefit”研究了 Chaudhary 今天发布的训练数据,发现其中充斥着许多“作为 AI 语言模型”这一短语,这表明它主要可能是由 OpenAI 的 ChatGPT 生成的,而且可能没有经过适当清理。
无论如何,Reflection 70B 的创建者发布的有关该模型的数据越多,开源 AI 社区需要仔细研究和检查其工作的证据就越多。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xun-lian-shu-ju-ti-gong-shang-fa-bu-shi-hou-bao-gao