开源AI模型超越GPT-4o：创新算法实现自我幻觉纠正，数学测试成绩高达99.2分

点点 • 2024年9月6日下午10:00 • AI前沿 • 191 views

探索开源AI模型的突破：自我纠错技术，数学测试高分，挑战传统GPT-4o。

开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。

新模型名为Reflection 70B，使用一种全新训练技术，让AI学会在推理过程中纠正自己的错误和幻觉。

开源AI模型超越GPT-4o：创新算法实现自我幻觉纠正，数学测试成绩高达99.2分

比如最近流行的数r测试中，一开始它犯了和大多数模型一样的错误，但主动在<反思>标签中纠正了自己。

在官方评测中，70B模型全面超越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特别是数学基准GSM8K上直接刷爆，得分99.2%。

这个结果也让OpenAI科学家、德扑AI之父Noam Brown激情开麦：

GSM8K得分99%！是不是可以正式淘汰这个基准了？

模型刚刚上线网友就把试玩挤爆了，对此Meta还主动支援了更多算力。

在网友测试中，Reflection 70B能回答对GSM8K数据集中本身答案错误的问题：

我向模型提供了GSM8K中存在的5个“ground_truth”本身就不正确的问题。

模型没有重复数据集中的错误答案，而是全部回答对了，这很令人印象深刻，表明那99.2%的准确率并非来自于记忆测试集！

数各种r都不在话下，连生造词“drirrrngrrrrrnnn”中有几个r也能被正确数对。

网友纷纷对小团队做出的开源超越顶流闭源感到惊讶，现在最强开源模型可以在本地运行了。

关键70B还只是个开始，官方表示下周还会发布更大的Reflection 405B。

预计405B性能将大幅优于Sonnet和GPT-4o。

Reflection 70B权重已公开，API访问将于今天晚些时候由Hyperbolic Labs提供。

模型能自我反思纠正错误

目前关于Reflection 70B的更多细节如下。

Reflection 70B能力提升的关键，是采用了一种名为Reflection-Tuning的训练方法，它能够让模型反思自己生成的文本，在最终确定回应前检测并纠正自身推理中的错误。

训练中的数据来自使用GlaiveAI平台生成的合成数据。

Reflection 70B基于Llama 3.1 70B Instruct，可以使用与其它Llama模型相同的代码、pipeline等从Reflection Llama-3.1 70B进行采样。

它甚至使用了标准的Llama 3.1聊天格式。

不过，Reflection 70B引入了一些特殊tokens，结构化输出过程。

如下面这个例子所展示的，规划过程分为一个独立的步骤，这样做可以提高CoT效果，并保持输出精炼：

模型将从在<thinking>和</thinking> 标签内输出推理开始，一旦对其推理感到满意，就会在<output>和</output>标签内输出最终答案。

所以它能够将其内部思考和推理与最终答案分离。

在<thinking>部分，模型可能会输出一个或多个<reflection>标签，这表明模型发现了其推理中的错误，并将在提供最终答案之前尝试纠正该错误。

系统提示如下：

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags. （你是一个世界级人工智能系统，能够进行复杂的推理和反思。在标签内对查询进行推理，然后在标签内提供你的最终回应。如果你发现自己在任何时候推理出错，请在标签内纠正自己。）

此外值得一提的是，基准测试中，所有基准都已通过LMSys的LLM Decontaminator检查污染，隔离了<output>部分，并单独对这一部分进行测试。

使用Reflection 70B的时候，官方还分享了小tips：

初步建议参数temperature为.7 ， top_p为.95

为提高准确性，最好附加“Think carefully.”在Prompt末尾

官方还表示，下周会发布一份报告，详细介绍模型训练过程和发现。

Agent创业团队打造

Reflection 70B的背后是一支小团队，由HyperWriteAI的CEO Mutt Shumer带领。

领英显示，Mutt Shumer是一位连续创业者，毕业于美国锡拉丘兹大学，现任OthersideAI的联合创始人兼CEO。

OthersideAI是一家AI应用公司，致力于通过大规模AI系统开发全球最先进的自动补全工具，也是HyperWrite的幕后公司。

HyperWrite是一个浏览器操作agent，可以像人一样操作谷歌浏览器来完成一系列任务，比如订披萨：

和gpt-llm-trainer一样，你只需要用文字描述目标，它就会一边列步骤，一边执行。

刚推出时号称“比AutoGPT强”。

HyperWrite还可以在谷歌扩展程序中安装。

另外，Mutt Shumer高中时期就创立了Visos，致力于开发用于医疗用途的下一代虚拟现实软件。

还创立了FURI，这是一家旨在通过创造高性能产品并以公平的价格销售它们来颠覆体育用品行业的公司。

虽然有Meta支持，但目前打开试玩，还是：暂时无法访问。

感兴趣的童鞋可以先码住了～

试玩地址：https://reflection-playground-production.up.railway.app/

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/kai-yuan-ai-mo-xing-chao-yue-gpt4o-chuang-xin-suan-fa-shi

AI AI之父 AI系统开发 GlaiveAI LLaMA Meta OpenAI OthersideAI 机器学习

Like (0)

点点

0 0

MIT的突破性研究揭示了大型模型在植入虚假记忆方面的潜力，马库斯警告其潜在风险。

Previous 2024年9月6日下午9:00

AI的生态进化：模应一体的终结与新商业逻辑的诞生

Next 2024年9月7日上午8:00

AI前沿

许多公司不愿透露是否会遵守加州的人工智能培训透明度法

周日，加州州长加文·纽瑟姆签署了一项法案AB-2013，要求开发生成式人工智能系统的公司发布用于训练其系统的数据的高级摘要。除其他事项外，摘要必须涵盖谁拥有数据、数据是如何获得或授…

王浩然
2024年10月7日
000
AI前沿

拜登总统发布首份关于人工智能的国家安全备忘录

拜登总统发布了美国首份关于人工智能的国家安全备忘录 (NSM)，阐述了美国如何从安全角度对待这项技术。该备忘录以拜登早先关于人工智能的行政命令为基础，其前提是尖端人工智能发展将在…

点点
2024年10月26日
000
AI前沿

Persado 联合创始人兼总裁 Assaf Baciu – 访谈系列

Assaf Baciu 拥有近二十年为市场领先的 SaaS 组织制定企业战略和产品方向的经验。作为Persado的联合创始人兼总裁，他推动了 Persado 不断增长的产品组合的发…

点点
2024年10月24日
000
AI前沿

解密诺贝尔物理学奖为啥颁给AI？Hinton和Ilya 12年前对话，竟引发物理诺奖AI风暴

昨天的诺贝尔物理学奖一公布，瞬间炸翻了物理圈和AI圈。 Hinton的第一反应更是有趣：这不会是个诈骗电话吧？如此出乎意料的结果，让各路针对诺奖物理学奖的严肃预测，都仿佛成了笑话…

点点
2024年10月9日
000
AI前沿

嘿，英国！以下是如何“选择退出”Meta 使用您的 Facebook 和 Instagram 数据来训练其 AI

在 Meta 最近重新引发争议的计划（将英国 Facebook 和 Instagram 用户的公开帖子用作 AI 训练素材）之后，这家社交网络巨头已采取下一步措施，开始通知当地用户…

王浩然
2024年10月5日
000
AI前沿

数据中心技术正在蓬勃发展，但对于初创企业来说采用并不容易

数据中心行业正在迅速扩张，以跟上人工智能飞轮式增长的步伐。虽然这些数据中心是人工智能基础设施的必需品，但它们存储着人工智能公司的计算能力，建造成本高昂，运行成本似乎更高，而且耗能巨…

王浩然
2024年10月14日
000
AI前沿

AlphaProteo：谷歌 DeepMind 在蛋白质设计方面的突破

在不断发展的分子生物学领域，最具挑战性的任务之一是设计能够有效结合特定靶标（例如病毒蛋白、癌症标志物或免疫系统成分）的蛋白质。这些蛋白质结合物是药物发现、疾病治疗、诊断和生物技术中…

点点
2024年9月18日
000
AI前沿

2024 年融资金额达 1 亿美元或以上的 39 家美国 AI 初创公司的完整名单

对于某些人来说，人工智能疲劳是真实存在的，但显然风险投资者还没有厌倦这一类别。第三季度，人工智能交易继续主导风险投资。根据Crunchbase 的数据，人工智能公司在第三季度筹集…

点点
2024年10月13日
000
AI前沿

Slack 的人工智能代理有望利用情境能力重塑生产力

Slack将把Salesforce 的Agentforce AI 代理深度整合到其工作场所协作平台中，强调情境智能是日益拥挤的 AI 代理市场中的关键差异化因素。 Slack 首席…

王浩然
3天前
000
AI前沿

人工智能治理差距：95% 的公司尚未实施框架

强有力的治理对于减轻人工智能风险和维护负责任的系统至关重要，但大多数公司尚未实施框架。该报告由Prove AI委托Zogby Analytics进行，调查了来自美国、英国和德国大…

点点
2024年10月18日
000
AI前沿

有没有想过拍广告？这家航空公司将利用人工智能的力量实现这一目标

你可以成为一部浪漫电影的主角，宣传一家航空公司和全球旅行，或者至少你的脸可以成为主角，这要感谢卡塔尔航空的新活动。该航空公司推出了一项新的人工智能冒险活动，将短片和深度伪造工具结合…

王浩然
2024年9月9日
000
AI前沿

Standard AI 首席技术官 David Woollard – 访谈系列

David Woollard 是 Standard AI 的首席技术官 (CTO)。他是一位拥有 20 多年经验的科技行业资深人士，曾在三星和 NASA 等公司工作，并作为企业家在…

点点
2024年8月28日
000
AI前沿

Sensei 再获 1600 万美元融资，Contactles 商店将在欧洲扩张

虽然 Amazon Go 率先开创了完全无接触式商店的概念，但 7-Eleven 和沃尔玛等其他公司也已进入该领域。而且该领域正在不断壮大，部分原因是 Standard Cogni…

王浩然
2024年10月23日
000
AI前沿

Atlassian 的 Rovo AI 现已正式发布

六个月前， Atlassian首次展示了 Rovo。Rovo是该公司所谓的“AI 队友”，它将更智能的搜索和基于聊天的 AI 工具与代理相结合，可以帮助用户在 Jira 和 Con…

王浩然
2024年10月10日
000
AI前沿

人工智能的变革者：Tsetlin 机器在降低能源消耗方面发挥的作用

人工智能 (AI)的迅速崛起已经改变了众多行业，从医疗保健和金融到能源管理等。然而，人工智能应用的增长也导致了严重的能源消耗问题。现代人工智能模型，尤其是基于深度学习和神经网络的模…

点点
2024年10月27日
000
AI前沿

这款人工智能发明机器可自动实现“尤里卡时刻”

在瑞士洛桑郊外，一间贴满专利图纸的会议室里，伊奥尼斯·伊里德斯 (Ioannis Ierides)面临着一个典型的销售挑战：在客户注意力集中的短暂时间内展示其产品的优势。伊里德斯是…

王浩然
2024年10月20日
000
AI前沿

神秘「蓝莓」登顶文生图竞技场，疑似Flux.1续作，网友：都来免费打广告了

都来玩这套。继OpenAI“草莓”之后，又有神秘模型蓝莓来“霸榜”。在文生图模型排行榜上，两个“无人认领”的模型blueberry_0和blueberry_1力压Flux.1、…

点点
2024年9月29日
000
AI前沿

OpenAI 更新 ChatGPT Search，增加语音查询、更快的结果和移动地图集成

圣诞节的第八天，也就是“OpenAI 的 12 天”（ChatGPT 背后的公司发布的一系列假日主题公告）的第八天，OpenAI在 YouTube 上通过其现在熟悉的直播宣布了其标…

王浩然
3天前
000
AI前沿

Adobe 如何保护艺术家免受 AI 滥用

近年来，生成式人工智能在创造逼真的视觉效果、模仿艺术风格和创造全新表达形式方面的能力日益增强，重新定义了艺术的创作和体验方式。虽然这种转变为创意行业的创新和生产力提供了巨大的机会，…

点点
2024年10月16日
000
AI前沿

MIPS 发布用于自动驾驶汽车的 RISC-V CPU

MIPS发布了基于 RISC-V 计算架构的 P8700 CPU，针对驾驶辅助和自动驾驶汽车应用。这家总部位于加利福尼亚州圣何塞的公司专注于开发高效且可配置的知识产权计算，并将其…

王浩然
2024年11月9日
000