
人工智能推理模型——在文本中产生“思路链”(CoT)并反思自己的分析以尝试在输出响应之前中途捕捉错误的模型——现在风靡一时,这要归功于DeepSeek和OpenAI 的“o”系列。
尽管如此,推理模型方法在人工智能行业的传播速度仍然令我感到非常难以置信,本周宣布又有另一种新模型可供尝试,这个模型来自神秘但原则性十足的 Nous Research 工程师集体,其整个使命自 2023 年在纽约市推出以来一直是制作“个性化、不受限制”的人工智能模型——通常是通过采用和微调或重新训练开源模型,例如 Meta 的 Llama 系列和法国初创公司 Mistral 的模型。
根据Nous Research 在 X 上的账户以及该公司的 Discord 频道上发布的信息,这个新的开放式推理模型被称为“DeepHermes-3 Preview”,被描述为“统一推理和直观语言模型功能的 LLM [大型语言模型]”,并允许用户随意在较长的推理过程和较短、较快、计算要求较低的响应之间切换。
它是 Hermes 3 的一个 80 亿参数(设置计数)变体,而 Hermes 3 本身是 Nous 于 2024 年 8 月发布的Meta’s Llama 的变体。样本交换表明,它可以进入类似元认知的显示,思考自身以及人工智能相对于人类意识的作用,从而引发模型输出中接近存在危机的现象。
用户可以在 HuggingFace 上下载完整的模型代码以及已量化(减少位数)并以GPT 生成的统一格式(GGUF)保存的版本,该版本旨在在消费级 PC 和服务器上运行模型推理(实际生产版本,而不是训练)。
Nous 今天写道,其研究人员“希望我们独特的用户控制、可切换推理模式能够进一步实现我们的使命,即为 DeepHermes 的用户提供更灵活的选择,满足他们各种需求。”
以 Hermes 3 为基础:数据和训练方法
DeepHermes-3 以 Hermes 3 为基础,后者是 Nous Research 为更广泛的 Hermes 3 系列开发的精心策划的多领域数据集。
根据8 月份发布的Hermes 3 技术报告,该数据集由约 3.9 亿个涵盖不同教学和推理领域的标记组成。
数据集分为以下主要类别:
- 一般指令(60.6%):类似于通用 AI 聊天模型中的广泛、开放式提示。
- 领域专家数据(12.8%):科学、法律和工程等领域的专业知识。
- 数学(6.7%):旨在提高数字和逻辑推理能力的高级问题解决数据集。
- 角色扮演和创造性写作(6.1%):旨在增强讲故事和模拟对话的数据。
- 编码和软件开发(4.5%):代码生成和调试任务。
- 工具使用、代理推理和检索增强生成 (RAG) (4.3%):对功能调用、规划和知识检索进行训练。
- 内容生成(3.0%):写作、总结和结构化输出任务。
- 转向和校准(2.5%):数据主要集中于使模型具有高度的可转向性并对用户提示做出响应。
此外,化名为 Nous Research 的团队成员 @Teknium(X 上的 @Teknium1)在回复该公司Discord 服务器的一名用户时写道,该模型是在“100 万个非 cot 和 15 万个 cot”或 100 万个非 CoT 输出和 15 万个 CoT 输出上进行训练的。
这种数据混合支持 DeepHermes-3 在直观响应和深度结构化推理之间切换的独特能力,这是它区别于其他 LLM 的一个关键特性。
可切换推理模式的工作原理
DeepHermes-3 允许用户使用系统提示来控制其推理深度。用户必须在提示之前输入以下文本才能“开启”模型的推理模式:
“你是一个深度思考的人工智能,你可能会用非常长的思维链来深入思考问题,并通过系统的推理过程与自己深思熟虑,以帮助在回答之前找到正确的解决方案。你应该把你的想法和内心独白封闭在标签中,然后提供你的解决方案或对问题的回应。 ”
当启用推理模式时,模型会以长 CoT 的形式处理信息,从而允许其在生成答案之前进行系统地审议。
这是通过使用 <think></think> 标签实现的,其中模型的内部独白在提出最终解决方案之前被构建。
在标准响应模式下,该模型的运行更像传统的人工智能聊天机器人,无需深度逻辑处理即可提供更快、基于直觉的响应。
绩效见解和社区反馈
早期的基准测试和社区测试为 DeepHermes-3 的功能提供了重要见解:
- 数学推理:DeepHermes-3 在数学基准测试中的得分为 67%,而 DeepSeek 的 R1 提炼模型的得分为 89.1%。虽然 DeepSeek 在纯数学任务中表现优于它,但 Nous Research 将 DeepHermes-3 定位为具有更广泛对话和推理技能的通用模型。
- 多轮对话:一些测试人员报告称,推理模式在第一次响应时可以正确激活,但在长时间的对话中可能无法持续。社区成员建议在每次响应开始时强制使用 <think>n,这种方法也用于 DeepSeek-R1。
- 函数调用:DeepHermes-3 支持工具使用,尽管它没有经过明确训练以同时集成推理模式和函数调用。一些用户报告说,虽然结合这两种功能可以提高执行工具的准确性,但结果仍然不一致。
Nous Research 正在积极收集用户反馈,以改进推理持久性并改善多轮交互。
部署和硬件性能
DeepHermes-3 可在 Hugging Face 上进行测试,其 GGUF 量化版本针对低功耗硬件进行了优化。该模型兼容 vLLM 进行推理,并使用 Llama-Chat 格式进行多轮对话。
一位用户报告称,MacBook Pro M4 Max 上的处理速度为每秒 28.98 个令牌,表明该模型可以在消费级硬件上高效运行。
许可:开放,但有 Meta 的限制
DeepHermes-3 基于 Meta 的 Llama 3 模型,并受 Meta Llama 3 社区许可的约束。虽然该模型可免费使用、修改和重新分发,但需遵守某些条件:
- 重新分发:任何衍生模型或部署都必须包含原始许可证,并突出显示“使用 Meta Llama 3 构建”。
- 模型训练的限制:用户不能使用 DeepHermes-3(或 Llama 3)训练其他 LLM,除非明确基于 Llama 3 的衍生作品。
- 大型公司的商业许可:每月活跃用户超过 7 亿的组织在商业使用该模型之前必须获得 Meta 的明确批准。
- 可接受使用政策:用户必须遵守 Meta 的 AI 使用限制,该限制禁止在错误信息、监视和有害内容生成等领域的应用。
这些重新分发规则和商业限制意味着,尽管 DeepHermes-3 可以在 Hugging Face 上使用,但它并不是传统意义上的完全开源,而不像中国竞争对手 DeepSeek 的热门R1 推理模型,它可以在宽松的 MIT 许可证下使用。
展望 Hermes 4
DeepHermes-3 由@teknium、@emozilla、@Gifted Gummy Bee、@hjc-puro 和@jsupha 开发,Nous Research 对开源社区对数据集、评估工具和模型训练的贡献表示赞赏。
Nous Research 将该预览模型视为下一个主要版本 Hermes 4 的垫脚石,预计该版本将进一步完善其推理和对话能力。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ge-xing-hua-bu-shou-xian-zhi-de-ren-gong-zhi-neng-shi-yan