← 返回首页

大模型多阶段渐进式训练策略优化

2026-05-13

大模型多阶段渐进式训练策略优化

调研日期:2026-05-13 | 调研范围:2019-2026 核心工作 + 2025-2026 实时数据


第一部分:概念剖析

1.1 定义澄清

通行定义

大模型多阶段渐进式训练策略是指:在大型语言模型的训练过程中,不是一次性使用全部数据和完整模型架构进行训练,而是将训练过程划分为多个阶段,在每个阶段中逐步增加模型容量(层数/宽度)、数据难度或训练目标复杂度,从而使模型以"由易到难、由浅入深"的方式渐进地习得语言能力。其核心理念源于人类学习的"最近发展区"理论和课程学习范式。

常见误解

  1. 误解:渐进式训练=课程学习。事实:课程学习仅是多阶段渐进式训练的一个子维度。完整的渐进式训练还包含模型架构的增长(如渐进式堆叠层)、训练目标的演进(如从语言建模到指令跟随)、以及训练数据的动态调整。课程学习主要关注数据顺序,而渐进式训练是规模、数据和目标的三维联动

  2. 误解:渐进式训练=继续预训练。事实:继续预训练(Continual Pretraining)是在固定架构上添加新数据训练,而渐进式训练通常伴随着模型容量的动态变化。两者解决的问题不同——继续预训练解决领域迁移,渐进式训练解决训练效率。

  3. 误解:小模型训练后直接扩展=重新开始训练。事实:通过 Function-Preserving Initialization(如 bert2BERT 的 Net2Net 适配),小模型的权重可以无损地初始化为大模型的起始点,使大模型"继承"小模型已学知识,这比重头训练节省约 25%-45% 的计算量。

边界辨析

易混淆概念 核心区别
课程学习 (Curriculum Learning) 仅关注数据样本的呈现顺序,不改变模型架构
多任务学习 (Multi-Task Learning) 同时学习多个任务,没有时间维度上的渐进性
迁移学习 (Transfer Learning) 从一个领域/任务迁移到另一个,通常只有一次迁移
知识蒸馏 (Knowledge Distillation) 大模型指导小模型,不涉及模型生长的逆向过程

1.2 核心架构

┌──────────────────────────────────────────────────────────────┐
│              大模型多阶段渐进式训练系统架构                        │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│  ┌──────┐   ┌──────────────────────┐   ┌───────────────┐     │
│  │ 数据  │ → │  多阶段训练调度器      │ → │  模型评估与    │     │
│  │ 流水线 │   │  (Stage Scheduler)   │   │  监控系统      │     │
│  └──────┘   └──────────┬───────────┘   └───────┬───────┘     │
│                         │                        │           │
│                         ▼                        ▼           │
│              ┌─────────────────────┐   ┌───────────────┐     │
│              │  阶段控制器           │   │  难度评估器    │     │
│              │  Stage 1 → Stage N  │   │  Difficulty   │     │
│              │  (渐进切换逻辑)       │   │  Estimator    │     │
│              └──────────┬──────────┘   └──────┬────────┘     │
│                         │                     │              │
│  ┌──────────────────────┴─────────────────────┴──────────┐  │
│  │                    每个训练阶段                         │  │
│  │  ┌──────────────┐  ┌──────────┐  ┌────────────────┐  │  │
│  │  │ 模型容量管理器  │  │ 数据采样器 │  │ 训练目标控制器  │  │  │
│  │  │ (添加/扩展层)  │  │ (难度采样) │  │ (损失函数切换)  │  │  │
│  │  └──────────────┘  └──────────┘  └────────────────┘  │  │
│  └─────────────────────────────────────────────────────┘  │
│                         │                                  │
│                         ▼                                  │
│              ┌─────────────────────┐                       │
│              │  基础训练引擎         │                       │
│              │  (Megatron/DeepSpeed)│                       │
│              └─────────────────────┘                       │
│                                                              │
└──────────────────────────────────────────────────────────────┘

核心组件说明:

组件 职责
多阶段训练调度器 定义阶段切换时机(基于 token 数、loss 收敛或验证指标),管理阶段间过渡
模型容量管理器 控制模型生长:添加 Transformer 层(深度生长)或扩展隐藏维度(宽度生长),执行 Function-Preserving Initialization
数据采样器 按当前阶段配置的难度分布对训练数据进行采样,实现由易到难的课程学习
训练目标控制器 在不同阶段切换损失函数:从基础语言建模到指令跟随、偏好对齐等
难度评估器 使用压缩率、词汇多样性、可读性等指标评估样本难度,支持自适应课程调度
基础训练引擎 实际的分布式训练执行层,负责前向/反向传播、梯度同步和参数更新

1.3 数学形式化

1.3.1 阶段定义

设训练过程被划分为 KK 个阶段,第 kk 阶段的状态由三元组定义:

Sk=(Dk,Mk,Lk),k{1,2,,K}\mathcal{S}_k = (\mathcal{D}_k, \mathcal{M}_k, \mathcal{L}_k), \quad k \in \{1, 2, \ldots, K\}

其中 Dk\mathcal{D}_k 为第 kk 阶段的数据分布,Mk\mathcal{M}_k 为模型架构参数,Lk\mathcal{L}_k 为损失函数。渐进式训练的约束条件为:Dk\mathcal{D}_k 的难度单调递增,Mk\mathcal{M}_k 的容量单调递增。

1.3.2 课程学习加速比

课程学习相对于随机采样的收敛加速比可以量化为:

ηcurriculum=TrandomTcurriculum[1.18,1.45]\eta_{\text{curriculum}} = \frac{T_{\text{random}}}{T_{\text{curriculum}}} \in [1.18, 1.45]

实证研究表明(EACL 2026),在大模型预训练中课程学习可减少 18%-45% 的训练步数。当 η>1\eta > 1 时,课程学习有效,且压缩率和词汇多样性(MTLD)作为难度信号时 η\eta 最大。

1.3.3 模型扩展的 Function-Preserving 条件

将小模型 θsmallRds\theta_{\text{small}} \in \mathbb{R}^{d_s} 扩展为大模型 θlargeRdl\theta_{\text{large}} \in \mathbb{R}^{d_l}dl>dsd_l > d_s),Function-Preserving 初始化要求:

f(x;θlarge(0))=f(x;θsmall),xXf(x; \theta_{\text{large}}^{(0)}) = f(x; \theta_{\text{small}}), \quad \forall x \in \mathcal{X}

对于 Transformer 的深度扩展(从 LL 层到 L+1L+1 层),在第 mm 层后插入新层时的权重初始化为:

Wnew(0)=Wold(m),bnew(0)=0\mathbf{W}_{\text{new}}^{(0)} = \mathbf{W}_{\text{old}}^{(m)}, \quad \mathbf{b}_{\text{new}}^{(0)} = \mathbf{0}

这确保了扩展后的模型在初始化时与扩展前行为一致,使模型可以"无缝继续训练"。

1.3.4 计算成本收益模型

渐进式训练相对于独立训练的计算成本节省率:

Csave=1k=1KTkFLOPs(Mk)k=1KTkFLOPs(MK)C_{\text{save}} = 1 - \frac{\sum_{k=1}^{K} T_k \cdot \text{FLOPs}(\mathcal{M}_k)}{\sum_{k=1}^{K} T_k \cdot \text{FLOPs}(\mathcal{M}_K)}

其中 TkT_k 是第 kk 阶段的训练步数,FLOPs(M)\text{FLOPs}(\mathcal{M}) 是模型 M\mathcal{M} 的单步计算量。COLM 2025 的实证表明,当采用从小到大的渐进式训练时,Csave25%C_{\text{save}} \approx 25\%

1.3.5 预算衰减调度

在渐进式 RL 训练中(如 GRPO 的推理长度控制),token 预算由以下调度函数管理:

B(t)=max(Bmin,B0γt/T)B(t) = \max(B_{\min}, B_0 \cdot \gamma^{\lfloor t / T \rfloor})

其中 B0B_0 为初始预算,γ(0,1)\gamma \in (0, 1) 为衰减因子,TT 为衰减间隔,BminB_{\min} 为最小预算。该调度使模型先探索长推理链,再逐步压缩为简洁推理。

1.4 实现逻辑(Python 伪代码)

class ProgressiveTrainer:
    """多阶段渐进式训练管理器"""

    def __init__(self, config: TrainingConfig):
        self.stages = config.stages                # 阶段定义列表
        self.current_stage = 0
        self.model = self._init_base_model(config.base_model)
        self.data_pipeline = DataPipeline(config.data_sources)
        self.difficulty_estimator = DifficultyEstimator(config.difficulty_metrics)

    def train(self):
        """执行完整的多阶段渐进式训练"""
        for stage_idx, stage_config in enumerate(self.stages):
            self.current_stage = stage_idx
            print(f"进入阶段 {stage_idx + 1}/{len(self.stages)}: {stage_config.name}")

            # 阶段前准备:模型扩展
            if stage_config.model_growth:
                self.model = self._grow_model(stage_config.model_growth)

            # 配置当前阶段的数据采样器和训练目标
            sampler = self._build_sampler(stage_config.difficulty_range)
            loss_fn = self._build_loss_fn(stage_config.training_objective)

            # 执行当前阶段训练
            for batch in self.data_pipeline.iterate(sampler, stage_config.num_steps):
                loss = self._training_step(batch, loss_fn)

                if self._should_switch_stage(stage_config.switch_criteria):
                    break

            # 阶段后处理:评估和模型保存
            self._evaluate_and_save(stage_config)

    def _grow_model(self, growth_config: GrowthConfig):
        """模型扩展(深度/宽度生长)"""
        if growth_config.mode == "depth":
            # 在中间层插入新的 Transformer 层(MIDAS 方法)
            insert_position = len(self.model.layers) // 2 if growth_config.middle_insert else -1
            new_layer = copy.deepcopy(self.model.layers[insert_position])
            # Function-Preserving 初始化:新层权重 copy 旧层
            self.model.layers.insert(insert_position + 1, new_layer)
            self.model.reset_biases_at(insert_position + 1)  # bias 置零
        elif growth_config.mode == "width":
            # 扩展 FFN 和 Attention 的隐藏维度
            self.model.expand_hidden_dim(growth_config.expand_ratio)
        return self.model

    def _should_switch_stage(self, criteria: SwitchCriteria) -> bool:
        """判断是否应切换到下一阶段"""
        if criteria.type == "steps":
            return self.step_count >= criteria.threshold
        elif criteria.type == "loss_plateau":
            return self._loss_plateau_detected(criteria.patience)
        elif criteria.type == "accuracy":
            return self.eval_accuracy >= criteria.threshold

1.5 性能指标

指标 典型目标值 测量方式 说明
训练加速比 1.2x - 1.45x 同等困惑度下的训练步数对比 课程学习相对随机采样的步数减少比
计算节省率 20% - 45% FLOPs 总量对比 渐进式训练相对独立训练的计算节省
基准平均增益 +2% - +4% 各下游基准测试的平均提升 CGLS 在 1.2B 规模达 +3.9%
吞吐提升 1.3x - 8x 端到端每秒 token 数 取决于模型生长策略和分布式系统
样本效率 2x - 100x 达到同等性能所需样本数 SPaCe 自步学习最高达 100x
模型参数利用率 >90% 各层梯度范数的均匀性 MIDAS 方法可避免"深度诅咒"
后训练参数重塑率 >90% PRISM 方法测量权重变化 中训练重塑 90%+ 参数,RL 仅 ~5%

1.6 扩展性与安全性

水平扩展

多阶段渐进式训练天然适合水平扩展:

垂直扩展

安全考量

  1. 阶段间的知识遗忘:在模型扩展或数据切换时可能发生灾难性遗忘。CLewR 方法通过"课程重启"(Curriculum Restarts)缓解此问题。
  2. 课程偏差:如果课程数据过于简单,模型可能无法泛化到复杂真实场景。需使用模型自适应的难度定义(如 CCL 方法)。
  3. 扩展后的性能退化:深度生长后的模型可能在初始阶段出现性能下降。Function-Preserving 初始化 + 渐进式学习率 warmup 可缓解。
  4. RL 阶段的奖励黑客:在渐进式 RL 阶段,模型可能利用奖励函数的漏洞(reward hacking),需配合持续的红队测试。

第二部分:行业情报

数据采集时间:2026-05-13 | 数据来源:GitHub、arXiv、会议论文、技术博客

2.1 GitHub 热门项目

多阶段训练框架

项目 Stars 核心功能 技术栈 最后更新 链接
OpenRLHF 10,000+ 生产级 RLHF 管线:SFT → RM → PPO/REINFORCE++/GRPO Ray + vLLM + DeepSpeed 2026/02 GitHub
Alignment Handbook 5,300+ HuggingFace 官方对齐管线:继续预训练 → SFT → DPO DeepSpeed + HF Transformers 2025/07 GitHub
MS-SWIFT 3,500+ 全生命周期:预训练 → SFT → RLHF → Reward Modeling,支持 600+ 模型 vLLM + SGLang + DeepSpeed 活跃更新中 GitHub
Slime 2,000+ SGLang 原生后训练框架:SFT → RL(PPO/GRPO) SGLang + Megatron + Ray 2025/07 GitHub

课程学习与渐进式训练

项目 Stars 核心功能 技术栈 最后更新 链接
Curriculum-RLAIF 21 数据驱动课程学习用于 RLAIF 奖励模型训练:易→中→难三阶段 PyTorch + AlpacaFarm 2026/04 GitHub
E2H-Reasoning 22 Easy-to-Hard 课程 RL 训练:4 种调度策略(Classic/Balanced/Cosine/Gaussian) PyTorch + TRL + vLLM + DeepSpeed Z3 2025/10 GitHub
LAIMARK 4 模型自生成课程 + GRPO 自我改进,HumanEval 76.8% pass@1 Qwen3-8B + LoRA + Ollama 2026/04 GitHub
CLewR 2 课程学习 + 重启机制,缓解 MT 偏好学习中的灾难性遗忘 TRL + LoRA 2026/01 GitHub
DUMP 50+ 分布级课程学习:UCB 动态调整采样概率,GRPO 实例化 PyTorch + GRPO 2025/04 GitHub
Curriculum GRPO 100+ "Train Long, Think Short":渐进式 token 预算衰减调度 GRPO PyTorch + GRPO 2025/08 GitHub
EvolvedGRPO 30+ 渐进式指令进化 + RL 用于多模态推理 GRPO + LVLM 2026 GitHub

模型生长与扩展

项目 Stars 核心功能 技术栈 最后更新 链接
CompoundGrow (Google) 50+ 联合深度/宽度/序列长度渐进增长,BERT-base 加速 73.6% TensorFlow 2021(经典) GitHub
Sparse Growing Transformer 7 训练时通过渐进式注意力循环实现稀疏深度分配 PyTorch 2026 GitHub
Growing Transformers 30+ 冻结嵌入层上逐层添加 Transformer,LoRA 周期性微调 PyTorch 2025/11 GitHub

2.2 关键论文

经典/高影响力(奠基性工作)

论文 作者/机构 年份 会议/期刊 核心贡献 链接
bert2BERT: Towards Reusable Pretrained Language Models Chen et al. / 清华+华为 2022 ACL 2022 提出 Function-Preserving Initialization,将小模型知识迁移到大模型,节省 ~45% 计算量 ACL
CompoundGrow: Progressive Transformer Growth Gu et al. / Google 2021 NAACL 2021 首次联合深度、宽度和序列长度的渐进增长,BERT-base 加速 73.6% Google
Efficient Stagewise Pretraining via Progressive Subnetworks Panigrahi et al. 2023 NeurIPS Workshop 渐进式子网训练(RaPTr),逐步增大训练路径长度,节省 20-33% FLOPs NeurIPS
Progressive Layer Dropping Zhang & He / Microsoft 2020 NeurIPS 2020 训练中渐进式丢弃层以加速 Transformer 训练 NeurIPS
On the Transformer Growth for Progressive BERT Training 腾讯 2021 ACL 2021 系统研究 Transformer 生长策略,分析层初始化和生长时机 arXiv

最新 SOTA(前沿进展)

论文 作者/机构 年份 会议/期刊 核心贡献 影响力 链接
Efficient Construction of Model Family through Progressive Training Yano et al. / Preferred Networks 2026 COLM 2025/2026 1B→2B→4B→8B 渐进扩展构建模型家族,计算节省 25%,性能反超独立训练 新方法 arXiv
Curriculum-Guided Layer Scaling (CGLS) Singh, Band & Adeli 2025 arXiv 同步数据难度递增 + 模型深度渐进增长,1.2B 规模 +3.9% 基准增益 开创性联动 arXiv
Beyond Random Sampling: Efficient LLM Pretraining via Curriculum Learning Zhang et al. / Ecole Polytechnique 2026 EACL 2026 200+ 模型系统研究,课程学习减少 18-45% 训练步数,最佳难度信号:压缩率/MTLD/可读性 系统性实证 ACL
What do Language Models Learn and When? The Implicit Curriculum Hypothesis 2026 arXiv 2604.08510 提出隐式课程假设,4 模型家族发现技能涌现顺序高度一致(ρ=.81) 理论突破 arXiv
PRISM: Demystifying Retention and Interaction in Mid-Training 2026 arXiv 2603.17074 中训练重塑 90%+ 模型权重而 RL 只改 5%,中训练使数学 +15~+40 分 中训练系统研究 arXiv
EvoLM: In Search of Lost Language Model Training Dynamics 2025 NeurIPS 2025 Oral 100+ 模型跨 4 阶段训练动态分析:预训练→继续预训练→SFT→RL 收益递减规律 系统性分析 NeurIPS
Do Depth-Grown Models Overcome the Curse of Depth? Kapl et al. 2025 arXiv MIDAS 中间层插入策略,训练加速 ~29%,克服深度诅咒 架构突破 arXiv
Growing Transformers: Modular Composition on Frozen Substrate Bochkov 2025 arXiv 2507.07129 冻结嵌入层上逐步添加 Transformer 层,复杂推理仅在足够深度涌现 模块化生长 arXiv
SPaCe: Self-Pace Curriculum Learning for LLM 2025 arXiv 自步学习 + 多臂老虎机样本选择,100 倍样本效率提升 样本高效 arXiv
ACER: Automated Curriculum-Enhanced Regimen Neema et al. / Cerebras 2025 arXiv 2510.26336 Bloom 分类法的合成教科书式课程,MMLU 宏平均 +3% 领域专业化 arXiv
Post-Training: Unified View of Off-Policy and On-Policy Learning 南开/华为 2026 arXiv 后训练统一视角:离策学习(外部轨迹)+ 在策学习(自身采样)的三角色框架 系统性综述 BAAI
DORA: Scalable Asynchronous RL System 2026 arXiv 2604.26256 多版本流式训练 + 动态编排,端到端吞吐提升 2.12 倍 系统优化 arXiv

2.3 系统化技术博客

博客标题 作者/来源 语言 类型 核心内容 日期 链接
Train Long, Think Short: Curriculum Learning Makes LLMs Think Smarter Cognaptus EN 深度教程 GRPO 渐进式 token 预算衰减:指数/线性衰减 + 三角奖励函数效果最佳 2025/08 Cognaptus
Scaling Pedagogical Pre-training: From Optimal Mixing to 10B Tokens HuggingFace Blog EN 深度教程 知识图谱引导的教学式课程学习,减少 18-45% 训练步数 2026/03 HF Blog
From Simple GPT to Production-Style LLM Stack Sebastian Raschka EN 学习路径 从 tokenization → attention → GPT → SFT → RLHF 的四阶渐进学习路径 2025 Raschka FAQ
文心 5.1:多维弹性预训练的突破性实践 百度开发者中心 CN 技术实践 多维弹性预训练:动态参数分配器 + 异构计算调度 + 渐进式知识融合 + 三阶段 RL 2026/05 百度
WOWService:四阶段训练打造高质量对话模型 美团技术博客 CN 架构解析 持续预训练 → SFT → 偏好学习 → 推理增强,构建可维护对话系统 2025/11 CSDN
LongCat-Flash-Thinking:训练三个模型比一个更强 知乎/小宇宙 CN 深度解析 域并行 RL + 模型融合:分别训练 STEM/Code/Agentic 专家再进行参数融合 2025/10 知乎
Metis-RISE:先 RL 后 SFT 的非传统训练顺序 QbitAI CN 技术分析 突破传统 SFT→RL 顺序,先 RL 探索激发潜力再 SFT 针对性补齐 2025/07 BAAI
大模型训练新突破:不对称训练让 AI 学会自我反思 开源中国 CN 技术分析 字节 PCL 方法:训练时加入评估阶段使模型自我反思,推理零额外开销 2025/08 OpenAtom
美团 MTGR:生成式推荐 Scaling Law 落地实践 美团技术博客 CN 工程实践 HSTU 架构 + 渐进式训练,FLOPs 提升 65 倍,首页订单量 +1.22% 2025/05 美团
LLM Post-Training: Off-Policy and On-Policy Unified View BAAI CN 综述 后训练统一框架:有效支撑集扩张、策略重塑、行为巩固三角色 2026/04 BAAI
nanochat: 4 小时/100 美元训练 ChatGPT 管线 Andrej Karpathy EN 教程 预训练→中训练→SFT→可选 RL 的完整渐进管线,560M 参数 2025/10 MarkTechPost

2.4 技术演进时间线

2020 ─┬─ Progressive Layer Dropping (Microsoft) → 训练中逐步减少层数加速训练
      │
2021 ─┬─ CompoundGrow (Google) → 首次联合深度/宽度/序列长度渐进增长, BERT-base 加速 73.6%
      ├─ StackBERT (ICML) → 渐进式堆叠层, 验证深度渐进生长可行性
      │
2022 ─┬─ bert2BERT (清华+华为, ACL) → Function-Preserving Initialization 形式化定义
      ├─ ChatGPT 发布 → 行业认识到 RLHF 后训练的重要性, 推动多阶段训练管线
      │
2023 ─┬─ RaPTr (NeurIPS Workshop) → 渐进式子网络训练, 从部分网络到全网络的平滑过渡
      ├─ LLaMA 系列发布 → 开源社区推动预训练+SFT+RL 的标准化三阶段管线
      ├─ OpenRLHF 开源 → 生产级多阶段 RLHF 框架
      │
2024 ─┬─ DeepSeek-V2 → MoE 架构 + 多阶段训练策略验证
      ├─ GRPO 提出 → 无 critic 模型的 RL 算法, 极大简化后训练管线
      ├─ 中训练 (Mid-Training) 概念兴起 → 预训练与后训练之间的关键桥梁阶段
      │
2025 ─┬─ EACL 2026 (提前发布) → 200+ 模型系统验证课程学习在预训练中的 18-45% 加速
      ├─ CGLS → 首次同步数据难度 + 模型深度增长
      ├─ MIDAS/LIDAS → 中间层插入胜于尾部插入
      ├─ EvoLM (NeurIPS Oral) → 跨 4 阶段的训练动态系统性分析
      ├─ "Train Long, Think Short" → 渐进式 token 预算衰减范式
      ├─ Growing Transformers → 冻结基座上逐层生长, 复杂推理在深度足够时涌现
      ├─ Meta ExIt → 自举式迭代自我改进, 单步训练实现多步改进
      ├─ 美团 Metis-RISE → 先 RL 后 SFT 的倒序训练范式
      │
2026 ─┬─ Efficient Model Family Construction (COLM) → 1B→2B→4B→8B 渐进式家族构建, 计算节省 25%
      ├─ Implicit Curriculum Hypothesis → 技能涌现顺序跨模型高度一致的发现
      ├─ PRISM → 中训练重塑 90%+ 参数而 RL 只改 5%
      ├─ DORA → 异步多版本流式训练, 2.12x 吞吐提升
      ├─ 文心 5.1 → 多维弹性预训练 + 三阶段 RL 管线, 成本降至行业 6%
      ├─ MegaScale-Omni (字节) → 多模态多阶段训练系统, 1.27x-7.57x 吞吐提升
      │
      └─ 当前状态:多阶段渐进式训练已从"单一维度的课程学习"演进为"模型容量、数据难度、
         训练目标的**三维联动渐进框架**",正朝着自动化调度和端到端联合优化的方向发展。

第三部分:方案对比

3.1 历史发展时间线

2020 ─┬─ Progressive Layer Dropping → 首次将"渐进"概念引入 Transformer 训练
2021 ─┬─ CompoundGrow → 维度扩展:从单维度(深度)到多维度(深度+宽度+序列长度)
2022 ─┬─ bert2BERT → 理论规范:Function-Preserving 初始化成为模型扩展的标准方法
2023 ─┬─ RaPTr + OpenRLHF → 两条路径分化:模型生长 vs 多阶段后训练管线
2024 ─┬─ GRPO + Mid-Training → 简化 RL + 填补"预训练-后训练"鸿沟
2025 ─┬─ 百花齐放:CGLS(联动)、MIDAS(中插)、EvoLM(系统分析)、DORA(异步)
2026 ─┴─ 当前状态:三维联动成熟化,自动化调度成新焦点

3.2 六种方案横向对比

方案概览

方案 原理 优点 缺点 适用场景 成本量级
A. 课程学习 (Curriculum Learning) 按难度由易到难组织训练数据 ① 实现简单,仅需修改数据采样器;② 加速 18-45% 训练步数(EACL 2026 实证);③ 可作为 warmup 带来 +3.5% 持续提升;④ 不改变模型架构 ① 独立效果有限,需配合其他策略;② 难度度量标准不统一;③ 课程设计依赖人工先验;④ 对高资源语言数据效果递减 中小规模预训练(≤10B tokens) 低(仅数据排序开销)
B. 渐进式深度生长 (Progressive Depth Growth) 训练中逐步增加 Transformer 层数 ① 计算节省 20-33%(RaPTr);② 克服"深度诅咒",各层利用率更均匀;③ 支持模型家族构建(1B→8B);④ 与课程学习可联合使用 ① 实现复杂,需 Function-Preserving 初始化;② 层插入位置选择敏感(中间 vs 尾部);③ 生长后的训练稳定性需额外维护;④ 深度扩展不如宽度扩展效果稳定 大规模预训练、模型家族构建 中高(需修改训练框架)
C. 多阶段后训练管线 (Multi-Stage Post-Training) SFT → RLHF/DPO → 蒸馏等多阶段顺序或交替组合 ① 标准化程度高,生态工具成熟;② 各阶段目标明确可独立优化;③ 中训练(Mid-Training)可大幅提升数学/代码能力(+15~+40 分);④ PRISM 发现中训练重塑 90%+ 参数 ① 阶段间过渡易丢失前期知识(灾难性遗忘);② 部分阶段(如 SFT)存在"对齐税";③ EvoLM 揭示过度后训练收益递减;④ 各阶段的最佳数据配比不明确 指令跟随、对齐、推理增强 中(复用成熟框架如 OpenRLHF)
D. 渐进式 RL 训练 (Progressive RL Training) 在 RL 阶段逐步收紧约束或增加任务难度 ① "Train Long, Think Short" 范式使模型学会高效推理;② E2H 提供理论收敛保证;③ 模型自适应课程(CCL)去除人工设计;④ 自生成课程(LAIMARK)实现自我改进 ① 课程调度策略(指数/线性/余弦)选择影响大;② 奖励函数设计复杂;③ 对小型模型(<8B)适用性更好;④ RL 训练本身不稳定,课程增加复杂度 推理优化(数学/代码)、对齐训练 中(基于 GRPO 较简单)
E. 模型扩展训练 (Model Expansion Training) 训练小模型后扩展为大模型继续训练 ① 计算节省 ~25%(COLM 2025);② 扩展后模型性能可反超独立训练;③ 天然支持模型家族(多个规模版本);④ 可复用现有预训练 checkpoint ① Function-Preserving 有精度损失风险;② 扩展后的训练需要仔细调整学习率;③ 宽度扩展不如深度扩展成熟;④ 扩展时机(训练到什么程度再扩展)难以确定 模型家族构建、多规模发布 低中(复用已训练权重)
F. 同步联动渐进 (Synchronized Progressive Growth) 数据难度 + 模型容量 + 训练目标三维同步演进 ① CGLS 验证联动优于独立维度(+3.9%);② 文心 5.1 多维弹性框架验证可行性;③ 最接近人类学习方式;④ 综合收益最高 ① 实现极度复杂,需同时管理多个维度;② 三维同步的最优配比无理论指导;③ 调试困难,问题定位复杂;④ 目前仅大厂有完整实践 超大规模预训练(≥100B tokens) 高(需完整训练框架改造)

3.3 技术细节对比

维度 A. 课程学习 B. 渐进式深度生长 C. 多阶段后训练 D. 渐进式 RL E. 模型扩展 F. 同步联动
性能加速 18-45% 步数减少 20-33% FLOPs 节省 N/A(提升质量) 推理长度可控 ~25% 计算节省 综合最优
下游增益 +2~+3.5% +3.9%(联动时可) 数学 +15~+40 +22% (MLE-bench) 3B→1B 级提升 综合最优
实现易用性 ★★★★★ ★★☆☆☆ ★★★★☆ ★★★☆☆ ★★☆☆☆ ★☆☆☆☆
生态成熟度 ★★★☆☆ ★★☆☆☆ ★★★★★ ★★★☆☆ ★☆☆☆☆ ★☆☆☆☆
社区活跃度 ★★★★☆ ★★☆☆☆ ★★★★★ ★★★★☆ ★★☆☆☆ ★☆☆☆☆
学习曲线 中高 极高
理论完备性 ★★★☆☆ ★★★★☆ ★★★☆☆ ★★★★☆ ★★★★☆ ★★☆☆☆
可扩展性 ★★★★☆ ★★★☆☆ ★★★★★ ★★★☆☆ ★★★☆☆ ★★★★☆

3.4 选型建议

场景 推荐方案 核心理由 预估月成本
学术实验/原型验证 A. 课程学习 无需修改模型架构,仅调整数据采样器即可验证概念。EACL 2026 提供了可直接使用的难度指标和调度策略。 2K-10K USD(GPU 租赁)
中小型生产模型(<10B) B/C 组合:课程学习 + 后训练管线 先用课程学习加速预训练收敛,然后复用 OpenRLHF 或 Alignment Handbook 做标准后训练。工具链成熟,社区支持好。 10K-50K USD
大型生产模型(10B-100B) C/D 组合:后训练 + 渐进式 RL + Mid-Training PRISM 已验证中训练的效果(数学 +15~+40 分)。"Train Long, Think Short" 的渐进式 token 预算衰减有效降低推理成本。使用 GRPO 减少 RL 实现复杂度。 50K-300K USD
模型家族构建(多规模发布) E. 模型扩展训练 COLM 2025 方案:1B→2B→4B→8B 渐进扩展,比独立训练节省 25% 计算量。扩展后微调学习率是关键技巧。 100K-500K USD(总节省 25%)
超大规模/旗舰模型(>100B) F. 同步联动渐进 参考文心 5.1 和 CGLS 的思路,在数据、模型、目标三个维度上同步渐进。需要定制训练框架,成本最高但收益也最大。 1M-10M+ USD
推理效率优化部署 D. 渐进式 RL 训练 "Train Long, Think Short" 范式中,GRPO 渐进式压缩 token 预算。百度文心 5.1 成本降至行业 6% 证明了极端优化的可行性。 推理成本降低 40-70%
领域专业化/垂直模型 A+D 组合:课程学习 + 领域渐进式 RL ACER 方法使用 Bloom 分类法学课的合成数据做课程学习,再配合领域特定 RL。美团 LongCat-Flash 域并行 RL 也是成功案例。 20K-100K USD

第四部分:精华整合

4.1 The One 公式

多阶段渐进式训练=课程学习数据维度:由易到难+模型生长容量维度:由小到大知识遗忘核心损耗:阶段间的灾难性遗忘\text{多阶段渐进式训练} = \underbrace{\text{课程学习}}_{\text{数据维度:由易到难}} + \underbrace{\text{模型生长}}_{\text{容量维度:由小到大}} - \underbrace{\text{知识遗忘}}_{\text{核心损耗:阶段间的灾难性遗忘}}

这个公式揭示了一个悖论:渐进式训练的本质是在"逐步增加难度"和"逐步扩大容量"之间寻找最优节奏,同时必须不断对抗阶段切换带来的知识遗忘——就像攀岩时既要点到更高的位置,又要确保没有滑落。

4.2 一句话解释

大模型渐进式训练就像教一个学生——先学加减法再用计算器、先写短句再写长文、先模仿后创作,而不是第一天就让 TA 写一篇博士论文。

4.3 核心架构图

训练开始 → [阶段1: 简单数据 + 小模型]
               ↓ (数据难度递增 + 模型层数增加)
          [阶段2: 中等数据 + 中层数模型]
               ↓ (加入指令数据 + 切换到 SFT 目标)
          [阶段3: 复杂数据 + 全模型 + 指令学习]
               ↓ (加入奖励信号 + 切换到 RL 目标)
          [阶段4: 全难度数据 + 全模型 + 偏好对齐]
               ↓
训练完成 → [可部署模型]

4.4 STAR 总结

Situation(背景与痛点)

当前大模型训练面临的核心矛盾是"规模与效率"的冲突。以 GPT-4 为代表的千亿参数模型训练成本高达数千万美元,且存在严重的资源浪费——训练中后期约 40% 的 token 对模型学习贡献甚微(Tirumala et al., 2023)。同时,传统"从零训练"模式要求每次从头起步,无法复用已有的小模型训练成果。行业急需在保持最终性能的前提下大幅降低训练计算成本的方法。

Task(核心问题)

如何在多阶段训练过程中,通过动态调整模型架构、数据分布和训练目标,实现计算效率的最大化?关键约束包括:(1) 保证最终模型性能不低于甚至超越独立训练的基线;(2) 避免阶段切换带来的知识遗忘;(3) 自动化调度各阶段的转换时机和参数配比,减少人工调优成本。

Action(主流方案)

2025-2026 年,该领域经历了从单维度到多维度联动的重要演进。早期工作(CompoundGrow 2021、bert2BERT 2022)专注于模型架构的渐进生长。2023-2024 年随着 RLHF 的成熟,多阶段后训练管线(SFT→RL→蒸馏)成为行业标准。2025 年 CGLS 首次实现了数据难度与模型深度的同步联动,MIDAS 发现了"中间层插入"优于"尾部插入"的重要规律。2026 年的关键突破包括:隐式课程假设的提出(技能涌现具跨模型一致性)、PRISM 对中训练的系统性解析(重塑 90%+ 参数)、以及 Efficient Model Family Construction(从 1B 渐进扩展到 8B,计算节省 25%)。

Result(效果与建议)

当前最佳实践表明:(1) 中等规模预训练中,课程学习可减少 18-45% 训练步数;(2) 对于 10B+ 模型的家族构建,渐进式模型扩展可节省约 25% 的计算量;(3) 中训练(Mid-Training)是性价比最高的质量提升手段(+15-40 分)。(4) 三维联动渐进(数据+模型+目标同步演进)代表未来方向,但实现复杂度极高,目前仅大厂具备完整实践能力。实操建议:对中小团队,优先采用"课程学习 + OpenRLHF 后训练管线"的组合;对大型团队,尝试将中训练纳入标准训练流程并关注 CGLS 类联动策略。

4.5 理解确认问题

Q: 如果一家 AI 公司想在 8 个 GPU 上以最低成本训练一个 7B 模型,它应该如何设计训练策略?请说明你的方案选择的依据。

参考答案要点:

  1. 数据层面:使用难度分层(按压缩率/MTLD 排序),前 30% 训练步数仅使用简单数据(warmup 式课程学习),后续恢复随机采样。根据 EACL 2026 经验,这样可减少约 20% 训练步数。
  2. 模型层面:不从零训练 7B 模型,而是先训练一个 1B 模型收敛后,通过 Function-Preserving 初始化扩展为 7B 模型继续训练(借鉴 COLM 2025 方法)。这样前期 1B 训练速度快 7 倍,总计算量节省约 25%。
  3. 训练目标层面:预训练完成后,加入中训练阶段(对数学和代码数据继续预训练),然后使用 OpenRLHF 进行 SFT + GRPO 对齐。PRISM 表明中训练可加+15~+40 分。
  4. 总成本估算:相比独立训练 7B,该方案可节省约 30-40% 总计算量,约等效于 5-6 个 GPU 跑完全程。

附录

A. 数据来源汇总

类别 数量 数据日期范围
GitHub 项目 16 个 2021-2026
学术论文 18+ 篇 2020-2026
技术博客 11 篇 2025-2026
行业实践 6 项 2025-2026

B. 缩略语对照

缩写 全称
CGLS Curriculum-Guided Layer Scaling
GRPO Group Relative Policy Optimization
RLHF Reinforcement Learning from Human Feedback
RLAIF Reinforcement Learning from AI Feedback
SFT Supervised Fine-Tuning
DPO Direct Preference Optimization
MIDAS Middle Insertion Depth-wise Architecture Scaling
POCL Progressive Overload Curriculum Learning
CCL Customized Curriculum Learning
FPI Function-Preserving Initialization

本报告基于截至 2026-05-13 的公开信息撰写,数据来源包括 GitHub、arXiv、Google Scholar、各大学术会议论文集及技术博客。文中所有影响力和指标数据均为调研时的快照值,可能随时间变化。

评论

评论加载中...