DeepSeek发布新技术：打造更智能、可扩展的AI奖励模型

王浩然 • 6天前 • AI前沿 • 53 views

DeepSeek AI，这家以强大开源语言模型著称的中国研究实验室，最近公布了一项重大技术突破。其新研发的Self-Principled Critique Tuning（SPCT）技术，旨在创建更加通用和可扩展的AI奖励模型（RMs），为大型语言模型（LLMs）带来全新的进步。这一创新有望推动AI应用在开放性和复杂性更高的任务中的表现，填补当前模型在处理环境和用户细微差别上的空白。

奖励模型的关键作用与挑战

强化学习（RL）作为开发先进LLMs的关键技术，依赖于反馈信号来优化模型响应。奖励模型（RM）作为这一过程中的“裁判”，负责评估LLM的输出并赋予相应的分数或“奖励”，从而指导RL过程，使LLM生成更有用的响应。然而，当前的奖励模型存在局限性，尤其是在处理复杂、开放或主观查询时表现不佳。

SPCT技术的诞生

DeepSeek团队认识到，通用奖励模型需要具备处理多种输入类型、生成高质量奖励信号、在推理时高效扩展，以及学习可扩展行为的能力。为了克服这些挑战，他们开发了SPCT技术。这一技术通过训练奖励模型（GRM）动态生成原则和批评，使模型能够根据查询和响应自适应地调整奖励生成过程。

SPCT的工作原理

SPCT技术分为两个主要阶段：

‌拒绝式微调‌：在这一阶段，GRM被训练为为不同类型的输入生成原则和批评，并使用正确的格式。只有当预测的奖励与真实情况相符（例如，正确识别出更好的响应）时，生成的轨迹才会被接受，否则会被拒绝。这一过程通过筛选后的示例反复进行，以改进模型的原则和批评生成能力。
‌基于规则的强化学习‌：在第二阶段，模型通过基于结果的强化学习进一步微调。GRM为每个查询生成原则和批评，奖励信号则基于简单的准确性规则计算（例如，是否选择了已知的最佳响应）。然后，模型根据这些反馈进行更新，以学习如何动态生成有效的原则和准确的批评。

解决推理时的扩展性问题

为了应对推理时的扩展性挑战，研究人员在推理阶段多次运行GRM，生成不同的原则和批评集合。最终的奖励通过投票（即聚合样本分数）确定，这允许模型在考虑更广泛视角的基础上做出更准确和细致的最终判断。此外，他们还引入了一个“元奖励模型”（meta RM），这是一个单独的、轻量级的标量奖励模型，专门用于预测由主GRM生成的原则和批评是否可能导致正确的最终奖励。在推理过程中，元奖励模型会评估生成的样本，过滤掉低质量的判断，从而进一步提高扩展性能。

DeepSeek-GRM的实践与应用

研究人员将SPCT应用于Google的开源模型Gemma-2-27B，创建了DeepSeek-GRM-27B。通过多项基准测试，他们发现DeepSeek-GRM-27B在性能上超越了多个强大的基线奖励模型，包括LLM-as-a-Judge、标量奖励模型和半标量奖励模型。在推理时通过扩展生成更多样本，DeepSeek-GRM-27B的性能显著提升，甚至超过了像Nemotron-4-340B-Reward和GPT-4o这样的大型模型。元奖励模型的引入进一步提高了扩展性能，实现了最佳结果。

对企业AI应用的影响

开发更通用和可扩展的奖励模型对企业AI应用具有重要意义。它们可以应用于创造性任务以及需要适应动态环境（如不断变化的客户偏好）的应用中。尽管DeepSeek-GRM在纯粹可验证任务上的表现可能不如专用标量奖励模型，但其在通用性和扩展性方面的优势使其在处理复杂、开放和主观任务时更具潜力。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/deepseek-fa-bu-xin-ji-shu-da-zao-geng-zhi-neng-ke-kuo-zhan

DeepSeek AI DeepSeek-GRM Self-Principled Critique Tuning (SPCT)企业AI应用原则和批评生成可扩展性大型语言模型 (LLMs)奖励模型 (RMs)强化学习 (RL)推理时扩展性通用性

Like (0)

王浩然作者

0 0

新兴开源AI公司Deep Cogito发布首批模型，迅速登顶排行榜‌

Previous 6天前

Google Cloud Next 2025：全新AI芯片与代理生态系统挑战微软与亚马逊

Next 5天前

AI前沿

Anthropic为Claude赋予超能力：实时网络搜索，为何这改变了一切？

在人工智能领域，Anthropic公司再次引领潮流，为其旗舰语言模型Claude赋予了实时网络搜索的能力。这一创新不仅标志着AI技术的又一重大突破，更预示着AI在日常生活和工作中应…

王浩然
2025年3月25日
000
AI前沿

NVIDIA助力推出AI平台，教授美国手语

NVIDIA携手合作伙伴，共同推出了一款创新的AI平台，旨在通过人工智能技术教授美国手语。该平台集成了先进的深度学习算法和高效的图形处理能力，为用户提供了一种直观、互动的学习方式，…

王浩然
2025年2月23日
000
AI前沿

超越生成式AI：代理式AI的崛起与影响

近年来，生成式AI（如ChatGPT）的兴起引起了广泛关注，并在多个领域展现出了巨大的应用潜力。然而，随着技术的进一步发展，一种更为先进、功能更为强大的AI形态——代理式AI（Ag…

王浩然
2025年3月14日
000
AI前沿

Salesforce豪掷10亿美元投资新加坡，力推AI技术普及‌

在科技日新月异的今天，人工智能（AI）已经成为推动各行各业发展的重要力量。近日，全球领先的客户关系管理软件提供商Salesforce宣布了一项重大投资决策——将在新加坡投入高达10…

王浩然
2025年3月13日
000
AI前沿

PIN AI 推出移动应用程序，让您可以在手机上创建自己的个性化、私人 DeepSeek 或 Llama 驱动的 AI 模型

通过《她》和其他众多科幻作品，我们很容易想象这样一个世界：每个人都有自己的个性化人工智能助手——它知道我们是谁、我们的职业、我们的爱好、我们的目标和激情、我们的好恶…&…

王浩然
2025年2月14日
000
AI前沿

DeepSeek-R1 对企业来说是一个福音——让人工智能应用更便宜、更容易构建、更具创新性

DeepSeek R1 推理模型的发布在整个科技行业引起了震动，最明显的迹象就是主要 AI 股票的突然抛售。OpenAI 和 Anthropic 等资金雄厚的 AI 实验室的优势似…

王浩然
2025年1月28日
000
AI前沿

【2024 CX报告】AI成客户体验王牌，成本却让人意外！

一份新报告显示，尽管企业将生成式人工智能(GenAI) 视为改变客户体验 (CX) 的关键因素，但许多企业仍为实施成本而苦恼。该研究结果来自 CallMiner 的《2024 年客…

点点
2024年9月11日
000
AI前沿

Lapsi 正在重新启动听诊器作为健康跟踪数据平台

医疗技术消费化正在继续：总部位于阿姆斯特丹的初创公司Lapsi Health刚刚获得 FDA 对其首款临床支持工具——数字听诊器的批准。美国医疗器械监管机构食品药品管理局已将其列为…

王浩然
2024年10月1日
000
AI前沿

Apple 的 AI 驱动的。Final Cut Pro 11 现已推出

苹果发布 Final Cut X 已有 13 年了。今年 4 月，这款视频编辑软件迎来了 25 岁生日，而现在，它已经走过了整个生命周期的一半多一点。在消费软件领域，Final C…

王浩然
2024年11月14日
000
AI前沿

生成式人工智能热潮背后的风险：为何人们越来越谨慎

在不久的将来，硅谷可能会回顾最近发生的事件，认为这是生成式人工智能热潮走得太远的标志。今年夏天，投资者质疑顶级人工智能股票能否维持其高估值，因为大规模人工智能支出缺乏回报。随着秋…

点点
2024年10月11日
000
AI前沿

白宫发布芯片许可和人工智能系统监管指南

新指南旨在增强国家安全、经济实力拜登-哈里斯政府发布了新的指南，以规范芯片许可和人工智能系统，同时加强人工智能安全标准。白宫的一份声明称，周一发布的《人工智能扩散临…

王浩然
2025年1月15日
000
AI前沿

DeepSeek宣称其理论利润率可高达545%‌

DeepSeek，一家专注于数据分析和人工智能技术的创新企业，近日公布了一项重大技术进展。该公司声称，其最新的解决方案能够实现高达545%的理论利润率，这一惊人数字在行业内引起了广…

王浩然
2025年3月3日
000
AI前沿

Manus或许并非中国的第二个“DeepSeek时刻”‌

近期，有关Manus的热烈讨论在中国科技界掀起了波澜，许多人将其视为继DeepSeek之后的又一里程碑事件。然而，深入剖析后不难发现，Manus可能并未达到DeepSeek那样的高…

王浩然
2025年3月11日
000
AI前沿

Duolingo 评论：你能达到 100% 流利程度吗？我的经验

学习一门新语言很容易让人不知所措。在记忆词汇、掌握复杂的语法规则和练习发音之间，难怪许多人在开始之前就放弃了。然而， Duolingo提供了一种令人耳目一新的替代方案！与依赖教科…

AI评测师
2024年9月24日
000
AI前沿

巧妙的架构胜过原始计算：DeepSeek 打破了“越大越好”的 AI 开发方法

人工智能的发展已经到达了一个关键的转折点。DeepSeek 的突破——无需依赖最先进的芯片即可实现最先进的性能——证明了 12 月 NeurIPS 上许多人已经宣称的内容：人工智能…

王浩然
2025年2月2日
000
AI前沿

Microsoft Outlook 现在允许您创建个性化的 AI 主题

微软周四宣布，Outlook 将推出一项新功能，允许您使用生成式 AI 根据个人喜好创建主题。拥有 Copilot Pro 消费者订阅和启用了 Copilot 的企业帐户的用户可…

王浩然
2024年11月8日
000
AI前沿

威尔斯法戈AI助手实现2.45亿次无人工介入零敏感信息交互

在人工智能技术的不断推动下，企业正逐步实现业务流程的自动化与智能化。威尔斯法戈银行近日宣布，其AI助手Fargo在2024年完成了惊人的2.454亿次交互，不仅远超年初设定的目标，…

王浩然
6天前
000
AI前沿

得益于“负责任的”人工智能，经典圣诞歌曲获得西班牙语改编授权

自 1958 年发行以来的几十年里，布伦达·李 (Brenda Lee) 的摇滚风格歌曲《Rockin’ Around the Christmas Tree》已成为有史…

王浩然
2024年10月26日
000
AI前沿

aiOla 推出开源AI 音频转录模型，可实时隐藏敏感信息

希望使用人工智能模型来转录高管、员工和客户的音频（特别是人类语音）的企业可能会对人工智能程序监听和记录敏感信息的想法持谨慎态度。然而，以色列音频 AI 初创公司aiOla有一个新…

王浩然
2024年11月23日
000
AI前沿

OmniOps 获 800 万美元融资，加速沙特阿拉伯的 AI 转型

OmniOps是一家总部位于沙特阿拉伯的 AI 基础设施技术提供商，由企业家Mohammed Altassan于 2024 年创立，目前已从GMS Capital Ventures…

王浩然
2024年12月27日
000