训练数据提供商发布事后报告，Reflection 70B 事件仍在继续

王浩然 • 2024年10月6日下午12:00 • AI前沿 • 114 views

2024 年 9 月 5 日，初创公司Hyperwrite AI（也称为 OthersideAI）的联合创始人兼首席执行官马特·舒默 (Matt Shumer) 在社交网络 X上发布了一则重磅消息，称他已将 Meta 的开源 Llama 3.1-70B 版本微调为性能更高的大型语言模型 (LLM)，即Reflection 70B — 事实上，根据他发布的所谓第三方基准测试结果，它的性能非常高，据他的帖子称，它是“世界上顶级的开源模型” 。

然而，该研究发布后不久，人工智能研究和托管社区的第三方评估人员就难以重现所声称的结果，从而引发欺诈指控。

研究人员指出，公布的基准测试结果与他们的独立测试结果存在差异，在 Reddit 和 X 等社交平台上引发了一波批评。

为了回应这些担忧，舒默承诺他将与Glaive创始人萨希尔·乔杜里 (Sahil Chaudhary) 一起对这些问题进行审查。舒默声称，他曾使用这家人工智能初创公司的合成数据对 Reflection 70B 进行训练，后来他透露自己曾向该公司投资了一小笔资金。

现在，将近一个月后，Chaudhary 昨晚在他的 Glaive AI 博客上发布了一份关于 Reflection 70B 模型的事后分析报告，并发布了资源供开源 AI 社区自行测试该模型和他的训练过程。他说，虽然他无法重现所有相同的基准，但他“在初始代码中发现了一个错误”，导致几个结果看起来比他在最近的 Reflection 70B 测试中发现的要高。然而，其他基准测试结果似乎比以前更高——这增加了谜团。

正如 Chaudhary 在帖子中写道：

“我们在推出该模型以及处理社区报告的问题的方式上犯了很多错误。我知道这样的事情对开源生态系统产生了重大的负面影响，我为此表示歉意。我希望这能让人们更清楚地了解发生的事情，并朝着重新获得失去的信任的方向迈出一步。我已经发布了独立验证基准和使用此模型所需的所有资产。 ”

为了恢复透明度和重建信任，Chaudhary 分享了一些资源来帮助社区复制 Reflection 70B 基准。这些资源包括：

模型权重：可在Hugging Face上使用，提供Reflection 70B的预训练版本。
训练数据：向公众发布，以便对用于微调模型的数据集进行独立测试。
训练脚本和评估代码：可在GitHub上获取，这些脚本允许重现模型的训练和评估过程。

这些资源旨在阐明模型是如何开发的，并为社区提供验证原始性能声明的途径。

基准复现工作

Chaudhary 在事后报告中解释说，重现初始基准测试结果的一个主要问题源于评估代码中的一个错误。由于系统处理外部 API 响应的方式存在错误，此错误导致某些任务（如 MATH 和 GSM8K）的分数虚高。与初始报告相比，修正后的基准测试结果略有下降，但仍然很强劲。

Reflection 70B 更新后的基准测试结果如下：

莫纳什大学语言学专业：90.94%
GPQA：55.6％
人类评估：89.02%
数学：70.8％
GSM8K：95.22％
成功率：87.63%

将其与最初声明的性能进行比较：

莫纳什大学语言学专业：89.9％
GPQA：55.3％
人类评价：91%
数学：79.7％
GSM8K：99.2％
成功率：90.13%

尽管修改后的分数不如最初报告的分数高，但 Chaudhary 坚称它们更准确地反映了模型的能力。

他还解决了对数据集污染的担忧，确认测试表明训练数据和基准集之间没有明显的重叠。

反思匆忙发布

Chaudhary 承认，发布 Reflection 70B 的决定是仓促做出的，原因是人们对该模型在基于推理的任务上的表现充满热情。

他指出，此次发布缺乏足够的测试，特别是关于模型文件的兼容性，而且他和舒默尚未验证该模型是否可以被社区轻松下载和运行。

Chaudhary 写道：“我们不应该在没有测试的情况下就发布，而且还大肆宣扬拥有最好的开源模型。”他还承认需要更多的透明度，尤其是关于模型的优点和缺点。虽然 Reflection 70B 在推理任务方面表现出色，但它在创造力和一般用户交互等领域表现不佳，这一事实在发布时并未得到传达。

澄清 API 混淆

其中一项更为严重的指控是怀疑 Reflection 70B API 只是中继 Anthropic 的 Claude 模型的输出。

用户报告了该模型输出的奇怪行为，包括似乎直接提及克劳德的响应。

Chaudhary 解决了这些问题，他解释说，尽管其中一些行为是可重现的，但他坚称在 Reflection 70B 模型中没有使用 Claude API 或任何形式的词语过滤。

他重申，该 API 在 Glaive AI 的计算基础设施上运行，而 Matt Shumer 在此期间无法访问所使用的代码或服务器。

展望

最后，Chaudhary 强调了他对透明度的承诺，并表示希望这次事后分析和模型工件的发布将有助于恢复人们对该项目的信任。他还证实，Matt Shumer 将继续独立努力重现基准测试分数。

尽管遭遇挫折，Chaudhary 仍认为“反射调整”方法（即在将响应输出给用户之前，让模型有时间检查其响应的准确性）具有潜力，并鼓励 AI 社区进行进一步的实验。“所探索的方法很有价值，我期待其他人继续探索这种技术，”他说。

Shumer 则在 X 上发帖称：“正如 Sahil 在其事后报告中所写，我自己仍在验证 Reflection，但 Sahil 在其报告的基准测试和运行的 API 上的透明度令我感到鼓舞。我们仍然相信 + 正在努力采用这种方法。希望很快完成我的重现。”

开源人工智能社区的怀疑态度仍然存在

尽管 Chaudhary 声称对 Reflection 70B 发生的事情提供了透明度和无辜的解释，但人工智能社区中许多最初对该模型及其宣称的性能感到兴奋的人仍然持怀疑态度，感觉他们好像被错误的说法所伤害，并且可能之前被欺骗了。

人工智能研究员 Alexander Moini 在 X 上写道：“仍然感觉没有任何进展” ，并补充道，“花了一个月的时间才将模型权重应用到 HF [Hugging Face] 上？”

Hyperbolic Labs是一家按需提供云端 GPU 和其他 AI 服务的初创公司，其联合创始人兼首席技术官 Yuchen Jin最初曾努力且很晚才托管 Reflection 70B，之后又因差异性而批评 Shumer，他也在 X 上对 Chaudhary 的事后报告表示怀疑，指出 Chaudhary 在 X 上声称他“重现了最初报告的除两个分数之外的所有分数”，但实际上这与他提供的数据不符，数据显示，至少有 4 个基准测试的分数从以前到现在发生了变化。

但也许最具批判性的评论来自Reddit 子版块 r/Local LLaMA，其中一位名为“FuckSides”的用户指出，Chaudhary 可能花了一个月的时间对新模型进行微调，以支持他的说法，即它会随机输出文本，表明它实际上是 Anthropic 的 Claude 3.5——这可以解释用户之前体验到的输出，并让他们得出结论，Reflection 70B 是通过 API 提供的另一个专有模型的欺诈性包装器。

与此同时，另一位 Redditor“DangerousBenefit”研究了 Chaudhary 今天发布的训练数据，发现其中充斥着许多“作为 AI 语言模型”这一短语，这表明它主要可能是由 OpenAI 的 ChatGPT 生成的，而且可能没有经过适当清理。

无论如何，Reflection 70B 的创建者发布的有关该模型的数据越多，开源 AI 社区需要仔细研究和检查其工作的证据就越多。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/xun-lian-shu-ju-ti-gong-shang-fa-bu-shi-hou-bao-gao

AI 服务 GitHub Llama 3.1-70B Meta Reddit 子版块 r/Local LLaMA Reflection 70B 云端 GPU 分析报告欺诈指控训练数据提供商

Like (0)

王浩然作者

0 0

微软刚刚放弃了 Drasi，它可能会改变我们处理大数据的方式

Previous 2024年10月6日上午11:00

Cohere 让企业能够更轻松地创建自己的 AI 语言模型

Next 2024年10月6日下午1:00

AI前沿

卡曼筹集2000万美元，打造小行星采矿自主航天器

近日，卡曼公司宣布成功筹集2000万美元资金，旨在开发一款用于小行星采矿的自主航天器。这一雄心勃勃的项目旨在利用先进的自主技术和太空探索经验，从小行星上开采宝贵资源，为未来的太空经…

王浩然
2025年2月24日
000
AI前沿

反对人工智能艺术的案例

无论生成式人工智能变得多么强大，作家特德姜说它都永远无法创造出真正的艺术。姜是当今最受推崇的科幻小说作家之一，最著名的作品是中篇小说《你一生的故事》（改编成电影《降临》）。但他也…

王浩然
2024年9月3日
000
AI前沿

ChatGPT 集成如何与 Apple Intelligence 协同工作

周三，借助新发布的 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2 更新，开发人员首次体验了 Apple Intelligence 的 Chat…

王浩然
2024年10月25日
000
AI前沿

ChatGPT 获得屏幕共享和实时视频分析功能，可与 Gemini 2 相媲美

OpenAI终于在其先进的语音模式中添加了期待已久的视频和屏幕共享功能，允许用户以不同的方式与聊天机器人进行交互。目前，ChatGPT Teams、Plus 和 Pro 用户的。…

王浩然
2024年12月13日
000
AI前沿

Nscale 将向英国数据中心投资 25 亿美元，助力生成式人工智能和政府雄心

总部位于伦敦的 AI 超大规模提供商Nscale宣布，计划在未来三年内向英国数据中心行业投资 25 亿美元（20 亿英镑）。这一重大承诺将支持英国政府的 AI 机遇行动计划以及该国…

王浩然
2025年1月14日
000
AI前沿

Mistral Small 3 将开源 AI 带给大众——更小、更快、更便宜

迅速崛起的欧洲人工智能初创公司Mistral AI今天推出了一种新的语言模型，该公司声称该模型的性能可与三倍于其规模的模型相媲美，同时大幅降低计算成本——这一进展可能会重塑先进人工…

王浩然
2025年2月2日
000
AI前沿

Thesys 融资 400 万美元，利用自适应“生成式 UI”改造 AI 驱动的用户界面

在充斥着旨在增强用户体验的人工智能代理的技术领域，Thesys 的使命是重新定义用户与人工智能的互动方式。在由Together Fund领投的新一轮 400 万美元种子融资以及8V…

王浩然
2024年11月10日
000
AI前沿

Orion Security以LLMs为核心，悄然面世，致力于追踪并阻止企业数据外泄

初露锋芒‌ 在数据泄露事件频发的当下，Orion Security如同一股清流，悄然涌入了网络安全领域。这家新兴公司宣布完成600万美元的种子轮融资，由Pico Partners和…

王浩然
2025年3月20日
000
AI前沿

OnPoint Healthcare 总裁兼首席执行官 Jim Boswell – 访谈系列

Jim Boswell 是 OnPoint Healthcare 的总裁兼首席执行官，Jim 是一位战略思想家，在其 28 年的职业生涯中，他致力于在大型医疗系统和私人诊所集团内建…

点点
2024年9月14日
000
AI前沿

人工智能生产力引擎在最新一轮融资中筹集 5000 万美元

协作式 AI 生产力引擎 You.com 在由成长期 B2B 投资者 Georgian 领投的 B 轮融资中获得了 5000 万美元。 Salesforce Ventures、NV…

点点
2024年9月12日
000
AI前沿

谁需要 GPT-4o 高级语音模式？Hume 的 EVI 2 现已推出，带有情感化的语音 AI 和 API

由前谷歌 DeepMinder/计算科学家 Alan Cowen 共同创立并领导的人工智能初创公司Hume时，正是 2024 年春天，该公司刚刚在 B 轮私募股权融资中筹集了 50…

王浩然
2024年9月22日
000
AI前沿

揭秘！新型开源AI模型引领材料设计革命

可持续材料开发专家 Orbital Materials 开源了一种最先进的 AI 模型，用于模拟先进材料以支持全球脱碳。该模型名为 Orb，是该公司从头开…

点点
2024年9月7日
000
AI前沿

Uber ChatGPT AI 助手鼓励人们使用电动汽车

在 OpenAI 的 GPT-4o 的支持下，Uber 的司机应用程序将配备人工智能助手，为所有可以想象到的电动汽车问题提供类似人类的答案

点点
2024年10月16日
000
AI前沿

硅谷正在争论是否应该允许人工智能武器决定杀人

9 月底，Shield AI 联合创始人 Brandon Tseng 发誓，美国的武器永远不会完全自动化——这意味着人工智能算法将做出杀人的最终决定。“国会不希望这样，”这位国防科…

点点
2024年10月13日
000
AI前沿

CoreWeave与EcoDataCenter携手筹集5亿美元，打造AI可持续建筑‌

在人工智能领域不断发展的背景下，CoreWeave与EcoDataCenter宣布了一项雄心勃勃的合作计划。两家公司已共同筹集了5亿美元资金，旨在建设更加环保、高效的建筑，以支持A…

王浩然
2025年3月6日
000
AI前沿

AI 销售代表初创企业正在蓬勃发展。那么风险投资家为何如此谨慎呢？

当你真正向风险投资家询问投资人工智能初创企业的情况时，他们会告诉你，企业正在疯狂地进行实验，但在将人工智能解决方案纳入其正在进行的业务流程方面却进展缓慢。但也有例外。其中之一似…

王浩然
2024年12月27日
000
AI前沿

Adobe 宣布视频生成功能今年将登陆 Firefly

几个月后，用户将首次有机会试用 Adobe 的视频生成 AI 模型。该公司表示，由Adobe Firefly Video 模型提供支持的功能将在 2024 年底前在 Pre…

王浩然
2024年9月13日
000
AI前沿

美国、英国和欧盟签署欧洲理事会高级别人工智能安全条约

目前我们还不清楚人工智能法规将如何实施和确保，但今天包括美国、英国和欧盟在内的许多国家签署了由国际标准和人权组织欧洲委员会 (COE) 制定的人工智能安全条约。欧洲委员会将该条约…

王浩然
2024年9月8日
000
AI前沿

平衡成本、功耗和性能，实现生成式人工智能的民主化

如今，生成式人工智能还只是早期采用者使用的新事物，但明天，它将成为我们日常生活中不可或缺的一部分。因此，它必须可以在各种消费设备上使用，独立于基于云的处理，并且可供所有人使用，而不…

王浩然
2025年2月6日
000
AI前沿

Salesforce 推出 Agentforce 测试中心，让座席人员接受测试

代理人工智能的下一阶段可能只是评估和监控，因为企业希望让他们开始部署的代理更具可观察性。虽然AI 代理基准可能会产生误导，但了解代理是否按其期望的方式工作却具有很大的价值。为此，…

王浩然
2024年11月26日
000