← 返回首页

大模型强化学习 GRPO 与 R1 训练方法 — 深度调研报告

2026-05-05

大模型强化学习 GRPO 与 R1 训练方法 — 深度调研报告

调研领域:大模型强化学习 / Reasoning RL 调研日期:2026-05-05 核心关键词:GRPO、DeepSeek-R1、RLVR、Group Relative Policy Optimization、Reasoning Model


目录

  1. 概念剖析
  2. 行业情报
  3. 方案对比
  4. 精华整合

一、概念剖析

1.1 定义澄清

通行定义:GRPO(Group Relative Policy Optimization,群体相对策略优化)是一种无批评器(Critic-free)的强化学习算法,由 DeepSeek 团队在 DeepSeekMath 论文(Shao et al., 2024)中首次提出。其核心思想是对每个 prompt 采样 G 条输出轨迹,利用组内奖励的均值和标准差归一化来估计优势函数,从而替代 PPO 中需要独立训练的价值网络(Critic)。GRPO 是 DeepSeek-R1 / R1-Zero 训练管线的核心算法,也是当前大模型推理能力强化训练的主流方案。

常见误解

  1. GRPO 是纯粹 On-Policy 算法 —— 实际上,ICLR 2026 的论文《Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm》通过数学推导证明,GRPO 具有天然的 Off-Policy 解释,重要性采样和裁剪扮演了关键角色。
  2. R1 的"顿悟时刻"(Aha Moment)是纯 RL 创造的涌现行为 —— 2025 年 Sea AI Lab 的研究发现,DeepSeek-V3-Base 在 RL 训练前已经存在自我反思关键词("wait"、"verify"),RL 只是放大了已有模式而非创造了新能力。
  3. GRPO 等价于去掉 Critic 的 PPO —— 两者虽然共享裁剪目标函数,但 GRPO 用组内统计量替代价值函数,训练动态和收敛特性有本质差异,且 GRPO 更适合规则奖励场景。

边界辨析

对比对象 与 GRPO 的核心区别
PPO 使用独立的 Critic 网络估计值函数;需要 4 模型(Actor + Critic + Reference + Reward);显存开销大
DPO 完全无需奖励模型和 RL 循环,直接在偏好对数据上优化;不适用于数学/代码等可验证任务
RLHF (PPO-based) 依赖人类偏好训练的奖励模型;GRPO 可用规则奖励替代,降低训练成本

1.2 核心架构

┌──────────────────────────────────────────────────────────┐
│                GRPO 训练系统架构                           │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  Prompt q ──→ [策略网络 π_θ] ──→ 采样 G 条响应 {o_i}     │
│                   │                    │                  │
│                   │                    ▼                  │
│                   │           [奖励函数 R(o_i)]            │
│                   │                    │                  │
│                   │                    ▼                  │
│                   │           [组内归一化]                  │
│                   │      Â_i = (r_i - μ)/σ               │
│                   │                    │                  │
│                   ▼                    ▼                  │
│           ┌──────────────────────────────────┐            │
│           │  GRPO 损失函数(最大化):         │            │
│           │  L = L_clip + β·KL(π_θ∥π_ref)    │            │
│           └──────────────────────────────────┘            │
│                    │                                      │
│                    ▼                                      │
│           [策略梯度更新 π_θ]                               │
│                                                          │
│  辅助组件:                                               │
│  · Reference 模型 π_ref — 冻结的基座,约束 KL 散度         │
│  · vLLM — 高效推理采样引擎                                 │
│  · DeepSpeed — 分布式训练框架                             │
└──────────────────────────────────────────────────────────┘

组件职责

组件 功能说明
策略网络 π_θ 待训练的主模型(如 DeepSeek-V3-Base),负责生成响应
奖励函数 R 规则奖励(答案匹配/格式检查)或模型奖励,为每条采样打分
组内归一化 以 G 条响应的均值和标准差为基准计算相对优势,替代 Critic
GRPO 损失 裁剪代理目标 + KL 散度约束,确保训练稳定
Reference 模型 冻结的参考模型,用于计算 KL 惩罚,防止策略偏移过远

1.3 数学形式化

公式 1:GRPO 完整目标函数

JGRPO(θ)=EqD,{oi}i=1Gπθold(oq)[1Gi=1G1oit=1oimin(ri,t(θ)A^i,t,  clip(ri,t(θ),1ϵ,1+ϵ)A^i,t)βDKL(πθπref)]J_{GRPO}(\theta) = \mathbb{E}_{q \sim \mathcal{D},\, \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(o|q)} \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\left( r_{i,t}(\theta) \hat{A}_{i,t},\; \text{clip}(r_{i,t}(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_{i,t} \right) - \beta D_{KL}(\pi_{\theta} \| \pi_{\text{ref}}) \right]

其中 ri,t(θ)=πθ(oi,tq,oi,<t)πθold(oi,tq,oi,<t)r_{i,t}(\theta) = \frac{\pi_{\theta}(o_{i,t}|q, o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t}|q, o_{i,<t})} 为重要性采样比。裁剪机制防止单步更新过大。

公式 2:组内相对优势函数

A^i=riμGσG,μG=1Gj=1Grj,σG=1Gj=1G(rjμG)2\hat{A}_i = \frac{r_i - \mu_G}{\sigma_G}, \quad \mu_G = \frac{1}{G}\sum_{j=1}^{G} r_j, \quad \sigma_G = \sqrt{\frac{1}{G}\sum_{j=1}^{G}(r_j - \mu_G)^2}

核心创新:用组内规范化替代价值函数。当响应优于组平均水平时 A^i>0\hat{A}_i > 0,策略增加其概率;反之则降低。

公式 3:KL 散度估计(无偏 K3 估计器)

DKL(t)=πref(oi,t)πθ(oi,t)logπref(oi,t)πθ(oi,t)1D_{KL}^{(t)} = \frac{\pi_{\text{ref}}(o_{i,t}|\cdot)}{\pi_{\theta}(o_{i,t}|\cdot)} - \log\frac{\pi_{\text{ref}}(o_{i,t}|\cdot)}{\pi_{\theta}(o_{i,t}|\cdot)} - 1

采用无偏非负估计量,避免简单对数比估计可能为负的问题,确保 KL 惩罚始终为正。

公式 4:GRPO 简化版——单步更新梯度

当每批只做一次梯度更新时(πθ=πθold\pi_{\theta} = \pi_{\theta_{\text{old}}}),目标简化为:

θJGRPOE[1Gi=1GA^ioit=1oiθlogπθ(oi,t)]βθDKL\nabla_{\theta} J_{GRPO} \approx \mathbb{E}\left[ \frac{1}{G}\sum_{i=1}^G \frac{\hat{A}_i}{|o_i|}\sum_{t=1}^{|o_i|} \nabla_{\theta} \log \pi_{\theta}(o_{i,t}|\cdot) \right] - \beta \nabla_{\theta} D_{KL}

这等价于:对正优势响应增大概率、对负优势响应减小概率,同时受 KL 约束。

1.4 实现逻辑(Python 伪代码)

class GRPOTrainer:
    """GRPO 训练器核心抽象,体现去 Critic 的组内相对优势训练范式"""

    def __init__(self, actor: nn.Module, ref_model: nn.Module,
                 reward_fn: callable, group_size: int = 8,
                 clip_eps: float = 0.2, kl_beta: float = 0.04):
        self.actor = actor           # 待训练的策略网络 π_θ
        self.ref_model = ref_model   # 冻结的参考模型 π_ref,用于 KL 约束
        self.reward_fn = reward_fn   # 规则奖励函数(如答案匹配、格式校验)
        self.G = group_size          # 每 prompt 采样数,典型值 8~64
        self.eps = clip_eps          # PPO 裁剪阈值
        self.beta = kl_beta          # KL 惩罚系数

    def train_step(self, prompts: List[str]) -> dict:
        """单步 GRPO 训练"""
        # 阶段 1:Rollout —— 采样 G 条响应
        all_responses = []
        for prompt in prompts:
            responses = self.actor.generate(
                prompt, num_return_sequences=self.G)
            all_responses.extend(responses)

        # 阶段 2:评分 —— 计算每条响应的奖励
        rewards = [self.reward_fn(p, r)
                   for p, r in zip(prompts, all_responses)]

        # 阶段 3:计算组内优势
        advantages = []
        for i in range(0, len(rewards), self.G):
            group_rewards = rewards[i:i+self.G]
            mu, sigma = np.mean(group_rewards), np.std(group_rewards)
            group_adv = [(r - mu) / (sigma + 1e-8)
                         for r in group_rewards]
            advantages.extend(group_adv)

        # 阶段 4:计算 GRPO 损失
        policy_loss = self._compute_clipped_loss(
            all_responses, advantages)
        kl_loss = self._compute_kl_penalty(all_responses)
        total_loss = policy_loss + self.beta * kl_loss

        # 阶段 5:反向传播
        total_loss.backward()
        self.optimizer.step()
        return {"loss": total_loss.item(), "avg_reward": np.mean(rewards)}

    def _compute_clipped_loss(self, responses, advantages):
        """裁剪代理目标"""
        log_ratios = self.actor.log_probs(responses) \
                     - self.old_actor.log_probs(responses)
        ratios = torch.exp(log_ratios)
        clipped = torch.clamp(ratios, 1-self.eps, 1+self.eps)
        return -torch.mean(torch.min(ratios * advantages,
                                     clipped * advantages))

1.5 性能指标

指标 典型目标值 测量方式 说明
推理准确率 AIME 2024 > 70% pass@1 标准评测集 DeepSeek-R1-Zero 从 15.6% 提升至 71.0%
训练显存 < PPO 的 60% 模型加载 + 梯度显存统计 去掉 Critic 减少约 40% 显存
训练步数 DAPO 比 GRPO 少 50% 收敛到同等性能所需步数 DAPO 在 Qwen2.5-32B 上仅用一半步数达同等水平
熵保持 训练中 policy 熵不塌缩 每 step 监测 token 级熵值 ProGRPO 通过重加权优势解决熵塌缩
推理 Token 效率 同等准确率下减少 50%+ Token 总生成 Token 数 / 正确解答数 AutoThink 减少 52% token 同时提升 6.4% 准确率
训练成本 增量训练 ~$294K GPU 小时 × 单价 DeepSeek R1 增量 RL 训练:512×H800×80h

1.6 扩展性与安全性

水平扩展

垂直扩展

安全考量


二、行业情报

2.1 GitHub 热门项目

项目 Stars 核心功能 技术栈 最后更新 链接
deepseek-ai/DeepSeek-R1 90K+ 官方 R1 模型权重与推理代码 PyTorch 2025-04 GitHub
huggingface/open-r1 38K+ 完整开源复现 R1 训练管线(含 GRPO) Python, TRL 2026-01 GitHub
modelscope/ms-swift 13.5K 600+ 模型训练框架(CPT/SFT/DPO/GRPO) PyTorch 2026-04 GitHub
Tencent-Hunyuan/MixGRPO 1.1K 流式 GRPO 效率优化(混合 ODE-SDE) Python 2026-02 GitHub
Jiayi-Pan/TinyZero 3K+ 最小化 R1-Zero 纯 RL 复现 PyTorch 2025-03 GitHub
hkust-nlp/simpleRL-reason 1.5K+ 小模型 + 少量数据复现 R1 推理 PyTorch 2025-04 GitHub
Unakar/Logic-RL 2K+ 基于逻辑谜题的 R1-Zero 复现 PyTorch, vLLM 2025-03 GitHub
DolbyUUU/Logic-RL-Lite 800+ 轻量版 Logic-RL,含"无顿悟时刻"发现 PyTorch 2025-05 GitHub
om-ai-lab/VLM-R1 1K+ R1 式强化学习用于视觉语言模型 PyTorch 2025-05 GitHub
agentica-org/DeepScaleR 2K+ 1.5B 推理模型 DeepScaleR-Preview PyTorch 2025-04 GitHub
lzhxmu/CPPO Completion Pruning GRPO 加速 PyTorch 2025-05 NeurIPS 2025
shengjun-zhang/VisualGRPO E-GRPO 用于视觉生成 RL PyTorch 2026-01 GitHub
billhhh/KRPO_LLMs_RL 卡尔曼滤波增强 GRPO 优势估计 PyTorch 2025-05 GitHub
xiwenc1/DRA-GRPO 多样性感知 GRPO(子模互信息) PyTorch 2025-05 GitHub
walkinglabs/hands-on-modern-rl PPO→DPO→GRPO→RLVR→Agentic 教材 Python 2026-05 GitHub

2.2 关键论文

经典高影响力论文(奠基性工作,约 40%)

论文 作者/机构 年份 会议/期刊 核心贡献 链接
DeepSeekMath: Pushing the Limits of Mathematical Reasoning Zhihong Shao et al. / DeepSeek 2024 arXiv / NeurIPS 提出 GRPO 算法,去 Critic 的组内相对优势策略优化 arXiv:2402.03300
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL DeepSeek AI 2025 Nature 封面 (2025.09) 四阶段训练管线(冷启动 SFT→推理 RL→拒绝采样→对齐 RL),首次验证纯 RL 可训练推理模型 arXiv:2501.12948
DAPO: An Open-Source LLM RL System at Scale 字节跳动 & 清华 AIR 2025 arXiv 非对称 Clip + 动态采样,减半训练步数 arXiv:2503.14476
GSPO: Group Sequence Policy Optimization 通义千问 2025 arXiv 序列级 Importance Ratio,从根本上解决 MoE 训练不稳定 arXiv:2507.18071

最新 SOTA 论文(前沿进展,约 60%)

论文 作者/机构 年份 会议/期刊 核心贡献 链接
Understanding R1-Zero-Like Training: A Critical Perspective Sea AI Lab & NUS 2025 arXiv 揭示 GRPO 的长度偏差和难度偏差,提出 Dr. GRPO arXiv:2503.20783
Reinforcement Learning with Verifiable Rewards: Dynamics & Success Amplification 2025 arXiv 证明 GRPO + 可验证奖励保证成功概率放大 arXiv:2503.06639
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm 2026 ICLR 2026 证明 GRPO 本质是 Off-Policy,统一 Online PPD 和 Asymmetric REINFORCE ICLR 2026
RE-GRPO: Reflective Enhanced GRPO 2026 Neurocomputing 硬案例池 + LLM 引导反射,训练步数减少 12% ScienceDirect
ProGRPO: Pro-Group Relative Policy Optimization 2026 arXiv 用提示困惑度和答案置信度重加权优势,解决熵塌缩 HuggingFace
RM-R1: Reward Modeling as Reasoning 2025 ICLR 2026 将奖励建模转为推理任务,Chain-of-Rubrics 机制 arXiv:2505.02387
AutoThink: Shaping Adaptive Reasoning via Multi-Stage RL 2025 NeurIPS 三阶段 RL 自适应控制思考深度,减少 52% Token NeurIPS 2025
Spectral Policy Optimization 2025 ICML 2025 AI 反馈注入响应多样性,解决全错组训练失败 ICML 2025
VeriFree: Reinforcing General Reasoning without Verifiers 2025 arXiv 无验证器的通用推理 RL,拓展到非数学领域 arXiv:2505.21493
Parallel-R1: Parallel Thinking via RL 2026 ICLR 2026 首个并行推理 RL 框架,提升 8.4% 准确率 ICLR 2026
Personalized GRPO (P-GRPO) Apple ML Research 2026 解耦优势估计与批次统计,适配异构用户偏好 Apple ML Research
Noise-corrected GRPO 2025 arXiv 贝努力噪声建模,无偏梯度估计,数学 +6.7pp arXiv:2510.18924

2.3 系统化技术博客

博客标题 作者/来源 语言 类型 核心内容 日期 链接
Advanced Understanding of GRPO Hugging Face LLM Course 英文 深度教程 GRPO 数学推导 + 代码实现的完整教学 2025 HF Course
DeepSeek-R1 技术全景解析(附多阶段训练流程图) 腾讯云开发者 中文 架构解析 R1 四阶段训练管线逐层拆解与核心误区澄清 2025 腾讯云
大模型强化学习全解:从 PPO、DPO 到 DeepSeek 的 GRPO 阿里云开发者 中文 对比教程 PPO/DPO/GRPO 三算法系统对比 2025 阿里云
强化学习系列(十二)——GRPO, DAPO, DUPO, GSPO 腾讯云开发者 中文 系列文章 GRPO 演进脉络和各变种的核心创新点 2025 腾讯云
GRPO vs Other RL Algorithms: A Guide HPC-AI Tech Blog 英文 深度对比 GRPO vs PPO vs DPO 完整对比实验数据 2025 HPC-AI
Mini-R1: Reproduce DeepSeek R1 "Aha Moment" RL Tutorial Hugging Face Blog 英文 实践教程 用 countdown 游戏复现 R1 的 RL 训练全流程 2025 HF Blog
深度解析:DeepSeek R1-Zero 训练范式与 GRPO 极简优化策略 百度智能云 中文 深度分析 R1-Zero 纯 RL 训练 + Dr. GRPO 改进方案 2025 百度云
Post-Training in 2026: GRPO, DAPO, RLVR & Beyond LLM Stats 英文 综述型 2026 年后训练算法全景和趋势分析 2026 LLM Stats
后训练算法的涌现:从 GRPO 到群智涌现 内参 AI 中文 深度分析 GRPO 商业应用和哲学边界的深度探讨 2025 内参AI
解读 GRPO:群体相对策略优化的高效路径 百度开发者 中文 概念解读 GRPO 数学形式化和实现细节的通俗解读 2025 百度

2.4 技术演进时间线

2024.02 ── DeepSeek 发布 DeepSeekMath 论文,首次提出 GRPO 算法
             │ 影响:开辟无 Critic 的 LLM 强化学习新范式,显存降低 40%+
             │
2025.01 ── DeepSeek-R1 发布(22页预印本),纯 RL 训练达到 o1 水平
             │ 影响:"顿悟时刻"引发全球关注,GRPO 成为业界焦点
             │
2025.01 ── Hugging Face 启动 Open-R1 开源复现项目
             │ 影响:推动 GRPO 训练的民主化和可复现性
             │
2025.03 ── 字节跳动发布 DAPO,非对称 Clip + 动态采样
             │ 影响:训练效率翻倍,GRPO 变种开始涌现
             │
2025.03 ── Sea AI Lab 发表《Understanding R1-Zero-Like Training》
             │ 影响:揭示 GRPO 长度/难度偏差,提出 Dr. GRPO 修正方案
             │
2025.07 ── 通义千问发布 GSPO,序列级 Importance Ratio
             │ 影响:从根本上解决 MoE 模型训练不稳定问题
             │
2025.09 ── DeepSeek-R1 论文登上 Nature 封面
             │ 影响:首个通过顶级期刊同行评审的主流大模型
             │
2026.01 ── DeepSeek 更新 R1 论文至 86 页,公开四阶段完整管线
             │ 影响:训练方法完全透明化,附三中间检查点细节
             │
2026.05 ── 当前状态:
            GRPO 成为推理 RL 事实标准,沿 Token 级(DAPO)和序列级(GSPO)
            两条路线演进。2026 年基调:从"能用"到"稳定高效"的工程成熟阶段

三、方案对比

3.1 历史发展时间线

2017 ── PPO(OpenAI)── 提出裁剪代理目标 + Critic 网络,RLHF 训练基石
2023 ── DPO(Stanford)── 绕过 RL,直接在偏好对上优化,无需奖励模型
2024.02 ── GRPO(DeepSeek)── 去掉 Critic,组内相对优势,显存减半
2025.03 ── DAPO(字节跳动)── 非对称 Clip + 动态采样 + Token 级 Loss + 超长惩罚
2025.07 ── DUPO(通义千问)── 重复采样 + 2~3x 训练加速,优化 Web Agent 场景
2025.07 ── GSPO(通义千问)── 序列级 Importance Ratio,MoE 稳定性突破
2025.08 ── MEML-GRPO(多专家互学习)── 提升知识多样性,跨模型迁移
2025.10 ── Noise-corrected GRPO ── 针对噪声奖励场景的无偏梯度估计
2026.01 ── E-GRPO(清华)── 熵感知 GRPO,扩展至视觉生成 RL
2026.05 ── 当前状态:去 Critic 已成共识,GSPO 被视为"范式级创新",有望成为新一代标准

3.2 五种方案横向对比

方案 原理 优点(3+) 缺点(3+) 适用场景 成本量级
PPO Critic 网络估计值函数 + 裁剪代理目标 ① 理论完善、验证充分 ② 逐 Token 细粒度优势 ③ 通用 RL 任务适配 ① 需 4 模型,显存是 GRPO 的 2x ② 实现复杂、调参困难 ③ 奖励模型训练数据成本高 通用 RLHF、安全对齐 高(10 万美元级 / 单次训练)
DPO 跳过 RL 循环,直接在偏好对上优化 ① 实现最简单 ② 训练稳定 ③ 无需奖励模型和 RL 管线 ① 需高质量偏好对 ② 无法利用可验证信号 ③ 不适合推理类任务 偏好对齐、写作风格调整 低(千美元级)
GRPO 组内均值/标准差归一化取代 Critic ① 显存比 PPO 低 40%+ ② 适合规则奖励场景 ③ 数学简洁易实现 ① 训练不稳定(小批量易崩) ② 熵塌缩问题 ③ 长度偏差(长错误响应惩罚不足) 推理任务(数学/代码)、R1 风格训练 中(29 万美元,DeepSeek R1 增量)
DAPO GRPO + 非对称 Clip + 动态采样 ① 训练步数比 GRPO 少 50% ② 解耦积极探索 ③ Token 级 Loss 去偏 ④ 超长惩罚 ① 实现复杂度增加 ② 动态采样引入额外超参 ③ 采样效率仍可提升 长思维链推理、高精度数学推理 中(比 GRPO 略低)
GSPO 序列级 Importance Ratio 替代 Token 级 ① MoE 训练稳定(GRPO 重大突破)② 梯度方差最低 ③ 长序列场景优势明显 ④ 序列级 clip 效果更好 ① 动态采样和超长惩罚未集成 ② 生态仍在发展中 ③ 序列级 ratio 有轻微信息损失 MoE 大模型、长序列推理、稀疏奖励 中(同 GRPO 量级)

3.3 技术细节对比

维度 PPO DPO GRPO DAPO GSPO
性能(AIME 2024 pass@1) ~71%(R1) ~50%(Qwen2.5-32B,训练步数减半) 待更多评测
显存需求 最高(~9.8 GB / 小模型) 较低(~6.8 GB) 低(~6.2 GB) 同 GRPO 同 GRPO
训练稳定性 极高 较差(小批量) 较好 最好
实现复杂度 高(需 4 模型) (2 模型) 中(3 模型) 中高
生态成熟度 最成熟 成熟 成熟(HF TRL 支持) 发展中 早期
社区活跃度 极高 极高 极高(2025 年焦点)
学习曲线 陡峭 平缓 中等 中等偏陡 中等
模型需求 Actor + Critic + Ref + Reward Actor + Ref Actor + Ref + Reward 同 GRPO 同 GRPO
数据需求 偏好对 + 奖励训练数据 偏好对 规则奖励或奖励模型 规则奖励 规则奖励
可验证任务优势 不显著 不适用 最适合 最适合 最适合

3.4 选型建议

场景 推荐方案 核心理由 预估月成本(含算力)
小型项目 / 原型验证(1-7B 模型) DPO(偏好数据充足)或 Open-R1 + GRPO(推理场景) DPO 实现简单、训练快、成本最低;GRPO 适合需要推理能力的场景 100 100~1,000(单卡 A100/几天训练)
中型生产环境(7-32B 模型,推理核心场景) GRPO + DAPO 风格改进 GRPO 生态成熟(HF TRL 支持),DAPO 动态采样可加可不加。显存比 PPO 节省 40%,性价比最优 5,000 5,000~50,000(432 卡 H100,数天数周)
大型分布式系统(70B+ MoE,高稳定性要求) GSPO 序列级 Importance Ratio 解决 MoE 训练不稳定问题,是当前从原理层面最先进的方案 50,000 50,000~300,000(2562048 卡 H800,14 周)
安全对齐 + 推理双目标 R1 四阶段方案(SFT→GRPO RL→Rejection Sampling→对齐 RL) DeepSeek 已验证的完整管线,兼顾推理性能和安全性 100,000 100,000~500,000(DeepSeek R1 增量:29.4 万美元)
非可验证任务(写作、客服) DPOPPO + 奖励模型 没有明确答案可验证时,偏好对或奖励模型更合适 1,000 1,000~10,000

四、精华整合

4.1 The One 公式

GRPO=组内相对优势替代 Critic,降低显存+裁剪代理目标稳定策略更新长度/难度偏差需工程修正\text{GRPO} = \underbrace{\text{组内相对优势}}_{\text{替代 Critic,降低显存}} + \underbrace{\text{裁剪代理目标}}_{\text{稳定策略更新}} - \underbrace{\text{长度/难度偏差}}_{\text{需工程修正}}

4.2 一句话解释

GRPO 是一种让大模型通过"内部考试竞争"来提升推理能力的方法:对一个题目生成多份答卷,用相互比较(而不是外部裁判)算出每份答卷的相对优劣,然后让模型多学习优秀答卷的思路、少学差答卷的错误模式。

4.3 核心架构图

Prompt q
   │
   ▼
┌──────────────────┐
│  Policy π_θ      │── 采样 G 条响应 {o₁, o₂, ..., o_G}
│  (主模型)         │
└──────────────────┘
   │
   ▼
┌──────────────────┐
│  Reward R(o_i)   │── 规则评分(答案对错/格式)
└──────────────────┘
   │
   ▼
┌───────────────────────────┐
│  组内归一化 Âᵢ = (rᵢ-μ)/σ │── 相对优势(好于平均 → 奖,差于平均 → 罚)
└───────────────────────────┘
   │
   ▼
┌───────────────────────────────────────┐
│  GRPO Loss                            │
│  = clipped_surrogate + β·KL(π∥π_ref)  │── 更新策略
└───────────────────────────────────────┘
   │
   ▼
输出:推理能力增强的策略网络 π_θ_new

4.4 STAR 总结

部分 内容
Situation(背景+痛点) 大语言模型虽然在对话和知识问答上表现优异,但在需要多步推理的数学、编程、逻辑任务上能力有限。传统的 PPO-based RLHF 虽然有效,但需要维护 4 个独立模型(Actor、Critic、Reward、Reference),显存开销巨大(~2x 模型参数量),训练成本极高,中小团队难以负担。同时,DPO 等离线方法无法利用可验证推理信号(如代码运行结果、数学答案对错)。
Task(核心问题) 如何设计一种可扩展、低成本的强化学习算法,让大模型通过可验证的奖励信号自主进化推理能力?核心约束:(1) 显存效率——不能依赖额外的 Critic 网络;(2) 训练稳定性——防止策略崩塌;(3) 探索效率——在稀疏奖励下有效探索解空间。
Action(主流方案) DeepSeek 提出 GRPO:对每个 prompt 采样 G 条输出,用组内均值和标准差做归一化来估计优势函数,彻底去除 Critic 网络,显存降低 40%+。DeepSeek-R1 进一步构建了四阶段训练管线(冷启动 SFT → 推理 GRPO-RL → 拒绝采样再微调 → 对齐 RL),在 AIME 2024 上实现 71.0% 准确率。随后,DAPO(字节跳动)引入非对称 Clip + 动态采样将训练步数减半;GSPO(通义千问)提出序列级 Importance Ratio 从根本上解决 MoE 训练不稳定问题。学术研究同时揭示了 GRPO 的长度偏差和难度偏差,并提出了 Dr. GRPO 等修正方案。
Result(效果+建议) GRPO 系列方法已成为大模型推理训练的事实标准。DeepSeek-R1 增量训练仅花费 29.4 万美元,达到与 OpenAI o1 相当的水平。当前建议:(1) 中小团队使用 Open-R1 + 小模型(7B 级)结合 GRPO 即可获得显著推理提升;(2) 生产环境推荐 DAPO 或 GSPO 以获得更好稳定性;(3) 需警惕 GRPO 的长度膨胀问题,建议引入长度奖励或多阶段自适应机制。未来方向:GSPO 的序列级优化范式有望取代 Token 级 GRPO,成为新一代推理 RL 标准。

4.5 理解确认问题

Q:GRPO 去掉 Critic 网络后,用什么机制来估计优势函数?这个机制在什么情况下会失效?

A:GRPO 用"组内相对比较"替代 Critic 网络。具体来说:对每个 prompt 采样 G 条响应,计算每条响应的奖励 r_i,然后以组内均值 μ 为基线、组内标准差 σ 为归一化因子,计算相对优势 Â_i = (r_i - μ)/σ。这本质上是在问"这条响应比组内平均水平好多少?"

失效场景(三种典型情况):

  1. 全组都错(all-negative group):所有 G 条响应都得到最低奖励,组内无区分度,标准差为零或极小,无法提供有效学习信号(LENS / 频谱策略优化等方案尝试解决此问题)。
  2. 全组都对:同样缺乏对比信息,模型无法从"都是正确的答案中"学会区分优劣。
  3. Group size 过小(如 G=2):统计量不稳定,优势估计方差大,训练容易崩溃——实践中通常需要 G≥8。

数据说明:本报告中的 GitHub Stars 数据、论文信息、性能指标等均来源于 2025-2026 年的公开信息。Stars 数量为截至搜索时刻的近似值,可能随时间变化。建议读者参考原始链接获取最新数据。

Sources:

评论

评论加载中...