DeepSeek AI 是大型语言模型领域的杰出参与者,最近发表了一篇研究论文,详细介绍了一种新技术,旨在增强一般奖励模型 (GRM) 在推理阶段的可扩展性。与此同时,该公司暗示其下一代模型 R2 即将到来,这在 AI 社区中引起了期待。

这篇题为“Inference-Time Scaling for Generalist Reward Modeling”的论文介绍了一种新方法,该方法允许 GRM 通过动态生成原则和批评来优化奖励生成。这是通过拒绝微调和基于规则的在线强化学习来实现的 [1-1]。

这一发展发生在扩展 LLM 的范式从训练前阶段转向训练后阶段,特别是推理阶段,随着 OpenAI 的 o1 等模型的出现。这种方法利用增加的强化学习(训练期间的计算工作量)和更广泛的“思考时间”(测试期间的计算工作量)来不断提高模型性能。值得注意的是,o1 在响应用户、完善其推理过程、探索不同的策略并识别自己的错误之前,会产生一个漫长的内部思维链。

DeepSeek 自己的 R1 系列模型进一步验证了纯强化学习训练(不依赖监督微调)的潜力,以实现 LLM 推理能力的重大飞跃。

LLM 的基本“下一个代币预测”机制虽然提供了丰富的知识,但通常缺乏深入的规划和预测长期结果的能力,这使得它们容易受到短视决策的影响。强化学习是一个重要的补充,为 LLM 提供了一个 “内部世界模型”。这使他们能够模拟不同推理路径的潜在结果,评估这些路径的质量,并选择更好的解决方案,最终导致更系统的长期规划。LLM 和 RL 之间的协同作用越来越被认为是提高解决复杂问题能力的关键。

清华大学交叉学科信息研究院 (IIIS) 的助理教授吴毅在最近的播客中将 LLM 和强化学习之间的关系比作“乘法关系”。虽然强化学习在决策方面表现出色,但它本身就缺乏理解。理解的构建依赖于预先训练的模型,强化学习可以进一步优化决策能力。这种“乘法关系”表明,只有在预训练期间建立了坚实的理解、记忆和逻辑推理基础,强化学习才能充分释放其创建完整智能代理的潜力 [1-2]。

一篇题为“强化学习增强型 LLM:一项调查”的综合调查论文概述了使用 RL 训练 LLM 的典型三步过程:

  1. 奖励模型训练:在微调之前,会训练奖励模型(或奖励函数)来近似人类偏好并评估不同的 LLM 输出。
  2. 基于首选项的微调:在每次微调迭代中,大型语言模型会生成对给定指令的多个响应,并且每个响应都使用经过训练的奖励模型进行评分。
  3. 策略优化强化学习优化技术用于根据偏好分数更新模型的权重,旨在改进响应生成。

集成强化学习允许大型语言模型根据不同的偏好分数进行动态调整,从而超越单个预先确定答案的限制。

DeepSeek 的 SPCT:解决 LLM 的 RL 扩展挑战

尽管强化学习在后训练中作为提高 LLM 性能的突破取得了成功,但强化学习算法本身仍有很大的改进空间,强化学习的 “缩放定律 ”仍处于起步阶段。

与专注于增加数据和计算以提高模型性能的传统扩展定律不同,强化学习的定律受更复杂的因素影响,包括样本吞吐量、模型参数大小和训练环境的复杂性。

扩展强化学习的一个主要障碍是奖励稀疏性。奖励模型是一个关键组成部分,生成准确的奖励信号至关重要。在奖励模型中实现泛化和连续性是一个关键重点。

DeepSeek 和清华大学的研究人员在他们最近的工作中通过探索推理时奖励模型的可扩展性和泛化性来应对这一挑战。他们提出的 Self-Principled Critique Tuning (SPCT) 方法旨在提高推理过程中一般奖励建模的可扩展性。

SPCT 方法包括两个关键阶段:

  1. 拒绝微调:这作为一个冷启动,使 GRM 能够适应以正确的格式和类型生成原则和批评。
  2. 基于规则的在线 RL:这个阶段进一步优化了原则和批评的生成。

为了实现有效的推理时间扩展,研究人员采用了并行采样来最大限度地提高计算利用率。通过多次采样,DeepSeek-GRM 可以生成不同的原则和批评,并通过投票选择最终的奖励。此外,元奖励模型 (Meta RM) 经过训练来指导投票过程,进一步提高扩容性能。Meta RM 是一个点对点的标量奖励模型,旨在识别 DeepSeek-GRM 生成的原则和批评的正确性。

实验结果表明,SPCT 显著提高了 GRM 的质量和可扩展性,在多个综合 RM 基准上优于现有方法和模型,没有明显的域偏差。

展望未来:DeepSeek R2 即将推出

虽然研究论文侧重于奖励建模和推理时间扩展方面的进步,但提到 DeepSeek 的 R1 系列和隐含的进展表明,该公司正在积极开发其下一代模型 R2。鉴于 DeepSeek 强调纯强化学习以增强推理能力,因此非常期待 R2 将整合并构建从可扩展奖励模型的最新研究中获得的见解。

AI 社区将密切关注有关 DeepSeek R2 的进一步公告,渴望了解该公司如何利用其创新方法进行强化学习和推理优化,以突破大型语言模型功能的界限。对可扩展奖励模型的关注暗示了在其下一个旗舰模型中可能会强调更复杂的自我评估和改进机制。

论文 Inference-Time Scaling for Generalist Reward Modeling 位于 arXiv 上。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
意见
建议
发表
评论
返回
顶部