大模型多阶段渐进式训练策略优化
调研日期:2026-05-13 | 调研范围:2019-2026 核心工作 + 2025-2026 实时数据
第一部分:概念剖析
1.1 定义澄清
通行定义
大模型多阶段渐进式训练策略是指:在大型语言模型的训练过程中,不是一次性使用全部数据和完整模型架构进行训练,而是将训练过程划分为多个阶段,在每个阶段中逐步增加模型容量(层数/宽度)、数据难度或训练目标复杂度,从而使模型以"由易到难、由浅入深"的方式渐进地习得语言能力。其核心理念源于人类学习的"最近发展区"理论和课程学习范式。
常见误解
-
误解:渐进式训练=课程学习。事实:课程学习仅是多阶段渐进式训练的一个子维度。完整的渐进式训练还包含模型架构的增长(如渐进式堆叠层)、训练目标的演进(如从语言建模到指令跟随)、以及训练数据的动态调整。课程学习主要关注数据顺序,而渐进式训练是规模、数据和目标的三维联动。
-
误解:渐进式训练=继续预训练。事实:继续预训练(Continual Pretraining)是在固定架构上添加新数据训练,而渐进式训练通常伴随着模型容量的动态变化。两者解决的问题不同——继续预训练解决领域迁移,渐进式训练解决训练效率。
-
误解:小模型训练后直接扩展=重新开始训练。事实:通过 Function-Preserving Initialization(如 bert2BERT 的 Net2Net 适配),小模型的权重可以无损地初始化为大模型的起始点,使大模型"继承"小模型已学知识,这比重头训练节省约 25%-45% 的计算量。
边界辨析
| 易混淆概念 | 核心区别 |
|---|---|
| 课程学习 (Curriculum Learning) | 仅关注数据样本的呈现顺序,不改变模型架构 |
| 多任务学习 (Multi-Task Learning) | 同时学习多个任务,没有时间维度上的渐进性 |
| 迁移学习 (Transfer Learning) | 从一个领域/任务迁移到另一个,通常只有一次迁移 |
| 知识蒸馏 (Knowledge Distillation) | 大模型指导小模型,不涉及模型生长的逆向过程 |
1.2 核心架构
┌──────────────────────────────────────────────────────────────┐
│ 大模型多阶段渐进式训练系统架构 │
├──────────────────────────────────────────────────────────────┤
│ │
│ ┌──────┐ ┌──────────────────────┐ ┌───────────────┐ │
│ │ 数据 │ → │ 多阶段训练调度器 │ → │ 模型评估与 │ │
│ │ 流水线 │ │ (Stage Scheduler) │ │ 监控系统 │ │
│ └──────┘ └──────────┬───────────┘ └───────┬───────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────────────┐ ┌───────────────┐ │
│ │ 阶段控制器 │ │ 难度评估器 │ │
│ │ Stage 1 → Stage N │ │ Difficulty │ │
│ │ (渐进切换逻辑) │ │ Estimator │ │
│ └──────────┬──────────┘ └──────┬────────┘ │
│ │ │ │
│ ┌──────────────────────┴─────────────────────┴──────────┐ │
│ │ 每个训练阶段 │ │
│ │ ┌──────────────┐ ┌──────────┐ ┌────────────────┐ │ │
│ │ │ 模型容量管理器 │ │ 数据采样器 │ │ 训练目标控制器 │ │ │
│ │ │ (添加/扩展层) │ │ (难度采样) │ │ (损失函数切换) │ │ │
│ │ └──────────────┘ └──────────┘ └────────────────┘ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────┐ │
│ │ 基础训练引擎 │ │
│ │ (Megatron/DeepSpeed)│ │
│ └─────────────────────┘ │
│ │
└──────────────────────────────────────────────────────────────┘
核心组件说明:
| 组件 | 职责 |
|---|---|
| 多阶段训练调度器 | 定义阶段切换时机(基于 token 数、loss 收敛或验证指标),管理阶段间过渡 |
| 模型容量管理器 | 控制模型生长:添加 Transformer 层(深度生长)或扩展隐藏维度(宽度生长),执行 Function-Preserving Initialization |
| 数据采样器 | 按当前阶段配置的难度分布对训练数据进行采样,实现由易到难的课程学习 |
| 训练目标控制器 | 在不同阶段切换损失函数:从基础语言建模到指令跟随、偏好对齐等 |
| 难度评估器 | 使用压缩率、词汇多样性、可读性等指标评估样本难度,支持自适应课程调度 |
| 基础训练引擎 | 实际的分布式训练执行层,负责前向/反向传播、梯度同步和参数更新 |
1.3 数学形式化
1.3.1 阶段定义
设训练过程被划分为 个阶段,第 阶段的状态由三元组定义:
其中 为第 阶段的数据分布, 为模型架构参数, 为损失函数。渐进式训练的约束条件为: 的难度单调递增, 的容量单调递增。
1.3.2 课程学习加速比
课程学习相对于随机采样的收敛加速比可以量化为:
实证研究表明(EACL 2026),在大模型预训练中课程学习可减少 18%-45% 的训练步数。当 时,课程学习有效,且压缩率和词汇多样性(MTLD)作为难度信号时 最大。
1.3.3 模型扩展的 Function-Preserving 条件
将小模型 扩展为大模型 (),Function-Preserving 初始化要求:
对于 Transformer 的深度扩展(从 层到 层),在第 层后插入新层时的权重初始化为:
这确保了扩展后的模型在初始化时与扩展前行为一致,使模型可以"无缝继续训练"。
1.3.4 计算成本收益模型
渐进式训练相对于独立训练的计算成本节省率:
其中 是第 阶段的训练步数, 是模型 的单步计算量。COLM 2025 的实证表明,当采用从小到大的渐进式训练时,。
1.3.5 预算衰减调度
在渐进式 RL 训练中(如 GRPO 的推理长度控制),token 预算由以下调度函数管理:
其中 为初始预算, 为衰减因子, 为衰减间隔, 为最小预算。该调度使模型先探索长推理链,再逐步压缩为简洁推理。
1.4 实现逻辑(Python 伪代码)
class ProgressiveTrainer:
"""多阶段渐进式训练管理器"""
def __init__(self, config: TrainingConfig):
self.stages = config.stages # 阶段定义列表
self.current_stage = 0
self.model = self._init_base_model(config.base_model)
self.data_pipeline = DataPipeline(config.data_sources)
self.difficulty_estimator = DifficultyEstimator(config.difficulty_metrics)
def train(self):
"""执行完整的多阶段渐进式训练"""
for stage_idx, stage_config in enumerate(self.stages):
self.current_stage = stage_idx
print(f"进入阶段 {stage_idx + 1}/{len(self.stages)}: {stage_config.name}")
# 阶段前准备:模型扩展
if stage_config.model_growth:
self.model = self._grow_model(stage_config.model_growth)
# 配置当前阶段的数据采样器和训练目标
sampler = self._build_sampler(stage_config.difficulty_range)
loss_fn = self._build_loss_fn(stage_config.training_objective)
# 执行当前阶段训练
for batch in self.data_pipeline.iterate(sampler, stage_config.num_steps):
loss = self._training_step(batch, loss_fn)
if self._should_switch_stage(stage_config.switch_criteria):
break
# 阶段后处理:评估和模型保存
self._evaluate_and_save(stage_config)
def _grow_model(self, growth_config: GrowthConfig):
"""模型扩展(深度/宽度生长)"""
if growth_config.mode == "depth":
# 在中间层插入新的 Transformer 层(MIDAS 方法)
insert_position = len(self.model.layers) // 2 if growth_config.middle_insert else -1
new_layer = copy.deepcopy(self.model.layers[insert_position])
# Function-Preserving 初始化:新层权重 copy 旧层
self.model.layers.insert(insert_position + 1, new_layer)
self.model.reset_biases_at(insert_position + 1) # bias 置零
elif growth_config.mode == "width":
# 扩展 FFN 和 Attention 的隐藏维度
self.model.expand_hidden_dim(growth_config.expand_ratio)
return self.model
def _should_switch_stage(self, criteria: SwitchCriteria) -> bool:
"""判断是否应切换到下一阶段"""
if criteria.type == "steps":
return self.step_count >= criteria.threshold
elif criteria.type == "loss_plateau":
return self._loss_plateau_detected(criteria.patience)
elif criteria.type == "accuracy":
return self.eval_accuracy >= criteria.threshold
1.5 性能指标
| 指标 | 典型目标值 | 测量方式 | 说明 |
|---|---|---|---|
| 训练加速比 | 1.2x - 1.45x | 同等困惑度下的训练步数对比 | 课程学习相对随机采样的步数减少比 |
| 计算节省率 | 20% - 45% | FLOPs 总量对比 | 渐进式训练相对独立训练的计算节省 |
| 基准平均增益 | +2% - +4% | 各下游基准测试的平均提升 | CGLS 在 1.2B 规模达 +3.9% |
| 吞吐提升 | 1.3x - 8x | 端到端每秒 token 数 | 取决于模型生长策略和分布式系统 |
| 样本效率 | 2x - 100x | 达到同等性能所需样本数 | SPaCe 自步学习最高达 100x |
| 模型参数利用率 | >90% | 各层梯度范数的均匀性 | MIDAS 方法可避免"深度诅咒" |
| 后训练参数重塑率 | >90% | PRISM 方法测量权重变化 | 中训练重塑 90%+ 参数,RL 仅 ~5% |
1.6 扩展性与安全性
水平扩展
多阶段渐进式训练天然适合水平扩展:
- 并行的模型家族构建:不同规模的模型可从小模型渐进扩展而来,而非独立训练。COLM 2025 方法用 1B→2B→4B→8B 的渐进式扩展构建模型家族,总计算量降低 ~25%。
- 多领域专家并行训练:美团 LongCat-Flash-Thinking 方案对不同领域(STEM、Code、Agentic)分别训练专家模型,然后进行参数级融合,实现训练并行化。
- 异步 Rollout 扩展:DORA 系统的多版本流式训练实现异步 rollout,端到端吞吐提升最高 2.12 倍。
垂直扩展
- 单节点优化:渐进式训练早期使用小模型时,可利用更大的 batch size 和更高的学习率加速训练。
- 混合精度调度:不同阶段可动态切换精度(FP16/INT8 混合),文心 5.1 的异构计算调度器即采用此策略。
- 层冻结策略:Growing Transformers 方法将已训练层冻结,只训练新增层,大幅降低活跃参数比例。
安全考量
- 阶段间的知识遗忘:在模型扩展或数据切换时可能发生灾难性遗忘。CLewR 方法通过"课程重启"(Curriculum Restarts)缓解此问题。
- 课程偏差:如果课程数据过于简单,模型可能无法泛化到复杂真实场景。需使用模型自适应的难度定义(如 CCL 方法)。
- 扩展后的性能退化:深度生长后的模型可能在初始阶段出现性能下降。Function-Preserving 初始化 + 渐进式学习率 warmup 可缓解。
- RL 阶段的奖励黑客:在渐进式 RL 阶段,模型可能利用奖励函数的漏洞(reward hacking),需配合持续的红队测试。
第二部分:行业情报
数据采集时间:2026-05-13 | 数据来源:GitHub、arXiv、会议论文、技术博客
2.1 GitHub 热门项目
多阶段训练框架
| 项目 | Stars | 核心功能 | 技术栈 | 最后更新 | 链接 |
|---|---|---|---|---|---|
| OpenRLHF | 10,000+ | 生产级 RLHF 管线:SFT → RM → PPO/REINFORCE++/GRPO | Ray + vLLM + DeepSpeed | 2026/02 | GitHub |
| Alignment Handbook | 5,300+ | HuggingFace 官方对齐管线:继续预训练 → SFT → DPO | DeepSpeed + HF Transformers | 2025/07 | GitHub |
| MS-SWIFT | 3,500+ | 全生命周期:预训练 → SFT → RLHF → Reward Modeling,支持 600+ 模型 | vLLM + SGLang + DeepSpeed | 活跃更新中 | GitHub |
| Slime | 2,000+ | SGLang 原生后训练框架:SFT → RL(PPO/GRPO) | SGLang + Megatron + Ray | 2025/07 | GitHub |
课程学习与渐进式训练
| 项目 | Stars | 核心功能 | 技术栈 | 最后更新 | 链接 |
|---|---|---|---|---|---|
| Curriculum-RLAIF | 21 | 数据驱动课程学习用于 RLAIF 奖励模型训练:易→中→难三阶段 | PyTorch + AlpacaFarm | 2026/04 | GitHub |
| E2H-Reasoning | 22 | Easy-to-Hard 课程 RL 训练:4 种调度策略(Classic/Balanced/Cosine/Gaussian) | PyTorch + TRL + vLLM + DeepSpeed Z3 | 2025/10 | GitHub |
| LAIMARK | 4 | 模型自生成课程 + GRPO 自我改进,HumanEval 76.8% pass@1 | Qwen3-8B + LoRA + Ollama | 2026/04 | GitHub |
| CLewR | 2 | 课程学习 + 重启机制,缓解 MT 偏好学习中的灾难性遗忘 | TRL + LoRA | 2026/01 | GitHub |
| DUMP | 50+ | 分布级课程学习:UCB 动态调整采样概率,GRPO 实例化 | PyTorch + GRPO | 2025/04 | GitHub |
| Curriculum GRPO | 100+ | "Train Long, Think Short":渐进式 token 预算衰减调度 GRPO | PyTorch + GRPO | 2025/08 | GitHub |
| EvolvedGRPO | 30+ | 渐进式指令进化 + RL 用于多模态推理 | GRPO + LVLM | 2026 | GitHub |
模型生长与扩展
| 项目 | Stars | 核心功能 | 技术栈 | 最后更新 | 链接 |
|---|---|---|---|---|---|
| CompoundGrow (Google) | 50+ | 联合深度/宽度/序列长度渐进增长,BERT-base 加速 73.6% | TensorFlow | 2021(经典) | GitHub |
| Sparse Growing Transformer | 7 | 训练时通过渐进式注意力循环实现稀疏深度分配 | PyTorch | 2026 | GitHub |
| Growing Transformers | 30+ | 冻结嵌入层上逐层添加 Transformer,LoRA 周期性微调 | PyTorch | 2025/11 | GitHub |
2.2 关键论文
经典/高影响力(奠基性工作)
| 论文 | 作者/机构 | 年份 | 会议/期刊 | 核心贡献 | 链接 |
|---|---|---|---|---|---|
| bert2BERT: Towards Reusable Pretrained Language Models | Chen et al. / 清华+华为 | 2022 | ACL 2022 | 提出 Function-Preserving Initialization,将小模型知识迁移到大模型,节省 ~45% 计算量 | ACL |
| CompoundGrow: Progressive Transformer Growth | Gu et al. / Google | 2021 | NAACL 2021 | 首次联合深度、宽度和序列长度的渐进增长,BERT-base 加速 73.6% | |
| Efficient Stagewise Pretraining via Progressive Subnetworks | Panigrahi et al. | 2023 | NeurIPS Workshop | 渐进式子网训练(RaPTr),逐步增大训练路径长度,节省 20-33% FLOPs | NeurIPS |
| Progressive Layer Dropping | Zhang & He / Microsoft | 2020 | NeurIPS 2020 | 训练中渐进式丢弃层以加速 Transformer 训练 | NeurIPS |
| On the Transformer Growth for Progressive BERT Training | 腾讯 | 2021 | ACL 2021 | 系统研究 Transformer 生长策略,分析层初始化和生长时机 | arXiv |
最新 SOTA(前沿进展)
| 论文 | 作者/机构 | 年份 | 会议/期刊 | 核心贡献 | 影响力 | 链接 |
|---|---|---|---|---|---|---|
| Efficient Construction of Model Family through Progressive Training | Yano et al. / Preferred Networks | 2026 | COLM 2025/2026 | 1B→2B→4B→8B 渐进扩展构建模型家族,计算节省 25%,性能反超独立训练 | 新方法 | arXiv |
| Curriculum-Guided Layer Scaling (CGLS) | Singh, Band & Adeli | 2025 | arXiv | 同步数据难度递增 + 模型深度渐进增长,1.2B 规模 +3.9% 基准增益 | 开创性联动 | arXiv |
| Beyond Random Sampling: Efficient LLM Pretraining via Curriculum Learning | Zhang et al. / Ecole Polytechnique | 2026 | EACL 2026 | 200+ 模型系统研究,课程学习减少 18-45% 训练步数,最佳难度信号:压缩率/MTLD/可读性 | 系统性实证 | ACL |
| What do Language Models Learn and When? The Implicit Curriculum Hypothesis | 2026 | arXiv 2604.08510 | 提出隐式课程假设,4 模型家族发现技能涌现顺序高度一致(ρ=.81) | 理论突破 | arXiv | |
| PRISM: Demystifying Retention and Interaction in Mid-Training | 2026 | arXiv 2603.17074 | 中训练重塑 90%+ 模型权重而 RL 只改 5%,中训练使数学 +15~+40 分 | 中训练系统研究 | arXiv | |
| EvoLM: In Search of Lost Language Model Training Dynamics | 2025 | NeurIPS 2025 Oral | 100+ 模型跨 4 阶段训练动态分析:预训练→继续预训练→SFT→RL 收益递减规律 | 系统性分析 | NeurIPS | |
| Do Depth-Grown Models Overcome the Curse of Depth? | Kapl et al. | 2025 | arXiv | MIDAS 中间层插入策略,训练加速 ~29%,克服深度诅咒 | 架构突破 | arXiv |
| Growing Transformers: Modular Composition on Frozen Substrate | Bochkov | 2025 | arXiv 2507.07129 | 冻结嵌入层上逐步添加 Transformer 层,复杂推理仅在足够深度涌现 | 模块化生长 | arXiv |
| SPaCe: Self-Pace Curriculum Learning for LLM | 2025 | arXiv | 自步学习 + 多臂老虎机样本选择,100 倍样本效率提升 | 样本高效 | arXiv | |
| ACER: Automated Curriculum-Enhanced Regimen | Neema et al. / Cerebras | 2025 | arXiv 2510.26336 | Bloom 分类法的合成教科书式课程,MMLU 宏平均 +3% | 领域专业化 | arXiv |
| Post-Training: Unified View of Off-Policy and On-Policy Learning | 南开/华为 | 2026 | arXiv | 后训练统一视角:离策学习(外部轨迹)+ 在策学习(自身采样)的三角色框架 | 系统性综述 | BAAI |
| DORA: Scalable Asynchronous RL System | 2026 | arXiv 2604.26256 | 多版本流式训练 + 动态编排,端到端吞吐提升 2.12 倍 | 系统优化 | arXiv |
2.3 系统化技术博客
| 博客标题 | 作者/来源 | 语言 | 类型 | 核心内容 | 日期 | 链接 |
|---|---|---|---|---|---|---|
| Train Long, Think Short: Curriculum Learning Makes LLMs Think Smarter | Cognaptus | EN | 深度教程 | GRPO 渐进式 token 预算衰减:指数/线性衰减 + 三角奖励函数效果最佳 | 2025/08 | Cognaptus |
| Scaling Pedagogical Pre-training: From Optimal Mixing to 10B Tokens | HuggingFace Blog | EN | 深度教程 | 知识图谱引导的教学式课程学习,减少 18-45% 训练步数 | 2026/03 | HF Blog |
| From Simple GPT to Production-Style LLM Stack | Sebastian Raschka | EN | 学习路径 | 从 tokenization → attention → GPT → SFT → RLHF 的四阶渐进学习路径 | 2025 | Raschka FAQ |
| 文心 5.1:多维弹性预训练的突破性实践 | 百度开发者中心 | CN | 技术实践 | 多维弹性预训练:动态参数分配器 + 异构计算调度 + 渐进式知识融合 + 三阶段 RL | 2026/05 | 百度 |
| WOWService:四阶段训练打造高质量对话模型 | 美团技术博客 | CN | 架构解析 | 持续预训练 → SFT → 偏好学习 → 推理增强,构建可维护对话系统 | 2025/11 | CSDN |
| LongCat-Flash-Thinking:训练三个模型比一个更强 | 知乎/小宇宙 | CN | 深度解析 | 域并行 RL + 模型融合:分别训练 STEM/Code/Agentic 专家再进行参数融合 | 2025/10 | 知乎 |
| Metis-RISE:先 RL 后 SFT 的非传统训练顺序 | QbitAI | CN | 技术分析 | 突破传统 SFT→RL 顺序,先 RL 探索激发潜力再 SFT 针对性补齐 | 2025/07 | BAAI |
| 大模型训练新突破:不对称训练让 AI 学会自我反思 | 开源中国 | CN | 技术分析 | 字节 PCL 方法:训练时加入评估阶段使模型自我反思,推理零额外开销 | 2025/08 | OpenAtom |
| 美团 MTGR:生成式推荐 Scaling Law 落地实践 | 美团技术博客 | CN | 工程实践 | HSTU 架构 + 渐进式训练,FLOPs 提升 65 倍,首页订单量 +1.22% | 2025/05 | 美团 |
| LLM Post-Training: Off-Policy and On-Policy Unified View | BAAI | CN | 综述 | 后训练统一框架:有效支撑集扩张、策略重塑、行为巩固三角色 | 2026/04 | BAAI |
| nanochat: 4 小时/100 美元训练 ChatGPT 管线 | Andrej Karpathy | EN | 教程 | 预训练→中训练→SFT→可选 RL 的完整渐进管线,560M 参数 | 2025/10 | MarkTechPost |
2.4 技术演进时间线
2020 ─┬─ Progressive Layer Dropping (Microsoft) → 训练中逐步减少层数加速训练
│
2021 ─┬─ CompoundGrow (Google) → 首次联合深度/宽度/序列长度渐进增长, BERT-base 加速 73.6%
├─ StackBERT (ICML) → 渐进式堆叠层, 验证深度渐进生长可行性
│
2022 ─┬─ bert2BERT (清华+华为, ACL) → Function-Preserving Initialization 形式化定义
├─ ChatGPT 发布 → 行业认识到 RLHF 后训练的重要性, 推动多阶段训练管线
│
2023 ─┬─ RaPTr (NeurIPS Workshop) → 渐进式子网络训练, 从部分网络到全网络的平滑过渡
├─ LLaMA 系列发布 → 开源社区推动预训练+SFT+RL 的标准化三阶段管线
├─ OpenRLHF 开源 → 生产级多阶段 RLHF 框架
│
2024 ─┬─ DeepSeek-V2 → MoE 架构 + 多阶段训练策略验证
├─ GRPO 提出 → 无 critic 模型的 RL 算法, 极大简化后训练管线
├─ 中训练 (Mid-Training) 概念兴起 → 预训练与后训练之间的关键桥梁阶段
│
2025 ─┬─ EACL 2026 (提前发布) → 200+ 模型系统验证课程学习在预训练中的 18-45% 加速
├─ CGLS → 首次同步数据难度 + 模型深度增长
├─ MIDAS/LIDAS → 中间层插入胜于尾部插入
├─ EvoLM (NeurIPS Oral) → 跨 4 阶段的训练动态系统性分析
├─ "Train Long, Think Short" → 渐进式 token 预算衰减范式
├─ Growing Transformers → 冻结基座上逐层生长, 复杂推理在深度足够时涌现
├─ Meta ExIt → 自举式迭代自我改进, 单步训练实现多步改进
├─ 美团 Metis-RISE → 先 RL 后 SFT 的倒序训练范式
│
2026 ─┬─ Efficient Model Family Construction (COLM) → 1B→2B→4B→8B 渐进式家族构建, 计算节省 25%
├─ Implicit Curriculum Hypothesis → 技能涌现顺序跨模型高度一致的发现
├─ PRISM → 中训练重塑 90%+ 参数而 RL 只改 5%
├─ DORA → 异步多版本流式训练, 2.12x 吞吐提升
├─ 文心 5.1 → 多维弹性预训练 + 三阶段 RL 管线, 成本降至行业 6%
├─ MegaScale-Omni (字节) → 多模态多阶段训练系统, 1.27x-7.57x 吞吐提升
│
└─ 当前状态:多阶段渐进式训练已从"单一维度的课程学习"演进为"模型容量、数据难度、
训练目标的**三维联动渐进框架**",正朝着自动化调度和端到端联合优化的方向发展。
第三部分:方案对比
3.1 历史发展时间线
2020 ─┬─ Progressive Layer Dropping → 首次将"渐进"概念引入 Transformer 训练
2021 ─┬─ CompoundGrow → 维度扩展:从单维度(深度)到多维度(深度+宽度+序列长度)
2022 ─┬─ bert2BERT → 理论规范:Function-Preserving 初始化成为模型扩展的标准方法
2023 ─┬─ RaPTr + OpenRLHF → 两条路径分化:模型生长 vs 多阶段后训练管线
2024 ─┬─ GRPO + Mid-Training → 简化 RL + 填补"预训练-后训练"鸿沟
2025 ─┬─ 百花齐放:CGLS(联动)、MIDAS(中插)、EvoLM(系统分析)、DORA(异步)
2026 ─┴─ 当前状态:三维联动成熟化,自动化调度成新焦点
3.2 六种方案横向对比
方案概览
| 方案 | 原理 | 优点 | 缺点 | 适用场景 | 成本量级 |
|---|---|---|---|---|---|
| A. 课程学习 (Curriculum Learning) | 按难度由易到难组织训练数据 | ① 实现简单,仅需修改数据采样器;② 加速 18-45% 训练步数(EACL 2026 实证);③ 可作为 warmup 带来 +3.5% 持续提升;④ 不改变模型架构 | ① 独立效果有限,需配合其他策略;② 难度度量标准不统一;③ 课程设计依赖人工先验;④ 对高资源语言数据效果递减 | 中小规模预训练(≤10B tokens) | 低(仅数据排序开销) |
| B. 渐进式深度生长 (Progressive Depth Growth) | 训练中逐步增加 Transformer 层数 | ① 计算节省 20-33%(RaPTr);② 克服"深度诅咒",各层利用率更均匀;③ 支持模型家族构建(1B→8B);④ 与课程学习可联合使用 | ① 实现复杂,需 Function-Preserving 初始化;② 层插入位置选择敏感(中间 vs 尾部);③ 生长后的训练稳定性需额外维护;④ 深度扩展不如宽度扩展效果稳定 | 大规模预训练、模型家族构建 | 中高(需修改训练框架) |
| C. 多阶段后训练管线 (Multi-Stage Post-Training) | SFT → RLHF/DPO → 蒸馏等多阶段顺序或交替组合 | ① 标准化程度高,生态工具成熟;② 各阶段目标明确可独立优化;③ 中训练(Mid-Training)可大幅提升数学/代码能力(+15~+40 分);④ PRISM 发现中训练重塑 90%+ 参数 | ① 阶段间过渡易丢失前期知识(灾难性遗忘);② 部分阶段(如 SFT)存在"对齐税";③ EvoLM 揭示过度后训练收益递减;④ 各阶段的最佳数据配比不明确 | 指令跟随、对齐、推理增强 | 中(复用成熟框架如 OpenRLHF) |
| D. 渐进式 RL 训练 (Progressive RL Training) | 在 RL 阶段逐步收紧约束或增加任务难度 | ① "Train Long, Think Short" 范式使模型学会高效推理;② E2H 提供理论收敛保证;③ 模型自适应课程(CCL)去除人工设计;④ 自生成课程(LAIMARK)实现自我改进 | ① 课程调度策略(指数/线性/余弦)选择影响大;② 奖励函数设计复杂;③ 对小型模型(<8B)适用性更好;④ RL 训练本身不稳定,课程增加复杂度 | 推理优化(数学/代码)、对齐训练 | 中(基于 GRPO 较简单) |
| E. 模型扩展训练 (Model Expansion Training) | 训练小模型后扩展为大模型继续训练 | ① 计算节省 ~25%(COLM 2025);② 扩展后模型性能可反超独立训练;③ 天然支持模型家族(多个规模版本);④ 可复用现有预训练 checkpoint | ① Function-Preserving 有精度损失风险;② 扩展后的训练需要仔细调整学习率;③ 宽度扩展不如深度扩展成熟;④ 扩展时机(训练到什么程度再扩展)难以确定 | 模型家族构建、多规模发布 | 低中(复用已训练权重) |
| F. 同步联动渐进 (Synchronized Progressive Growth) | 数据难度 + 模型容量 + 训练目标三维同步演进 | ① CGLS 验证联动优于独立维度(+3.9%);② 文心 5.1 多维弹性框架验证可行性;③ 最接近人类学习方式;④ 综合收益最高 | ① 实现极度复杂,需同时管理多个维度;② 三维同步的最优配比无理论指导;③ 调试困难,问题定位复杂;④ 目前仅大厂有完整实践 | 超大规模预训练(≥100B tokens) | 高(需完整训练框架改造) |
3.3 技术细节对比
| 维度 | A. 课程学习 | B. 渐进式深度生长 | C. 多阶段后训练 | D. 渐进式 RL | E. 模型扩展 | F. 同步联动 |
|---|---|---|---|---|---|---|
| 性能加速 | 18-45% 步数减少 | 20-33% FLOPs 节省 | N/A(提升质量) | 推理长度可控 | ~25% 计算节省 | 综合最优 |
| 下游增益 | +2~+3.5% | +3.9%(联动时可) | 数学 +15~+40 | +22% (MLE-bench) | 3B→1B 级提升 | 综合最优 |
| 实现易用性 | ★★★★★ | ★★☆☆☆ | ★★★★☆ | ★★★☆☆ | ★★☆☆☆ | ★☆☆☆☆ |
| 生态成熟度 | ★★★☆☆ | ★★☆☆☆ | ★★★★★ | ★★★☆☆ | ★☆☆☆☆ | ★☆☆☆☆ |
| 社区活跃度 | ★★★★☆ | ★★☆☆☆ | ★★★★★ | ★★★★☆ | ★★☆☆☆ | ★☆☆☆☆ |
| 学习曲线 | 低 | 高 | 中 | 中高 | 高 | 极高 |
| 理论完备性 | ★★★☆☆ | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★☆☆☆ |
| 可扩展性 | ★★★★☆ | ★★★☆☆ | ★★★★★ | ★★★☆☆ | ★★★☆☆ | ★★★★☆ |
3.4 选型建议
| 场景 | 推荐方案 | 核心理由 | 预估月成本 |
|---|---|---|---|
| 学术实验/原型验证 | A. 课程学习 | 无需修改模型架构,仅调整数据采样器即可验证概念。EACL 2026 提供了可直接使用的难度指标和调度策略。 | 2K-10K USD(GPU 租赁) |
| 中小型生产模型(<10B) | B/C 组合:课程学习 + 后训练管线 | 先用课程学习加速预训练收敛,然后复用 OpenRLHF 或 Alignment Handbook 做标准后训练。工具链成熟,社区支持好。 | 10K-50K USD |
| 大型生产模型(10B-100B) | C/D 组合:后训练 + 渐进式 RL + Mid-Training | PRISM 已验证中训练的效果(数学 +15~+40 分)。"Train Long, Think Short" 的渐进式 token 预算衰减有效降低推理成本。使用 GRPO 减少 RL 实现复杂度。 | 50K-300K USD |
| 模型家族构建(多规模发布) | E. 模型扩展训练 | COLM 2025 方案:1B→2B→4B→8B 渐进扩展,比独立训练节省 25% 计算量。扩展后微调学习率是关键技巧。 | 100K-500K USD(总节省 25%) |
| 超大规模/旗舰模型(>100B) | F. 同步联动渐进 | 参考文心 5.1 和 CGLS 的思路,在数据、模型、目标三个维度上同步渐进。需要定制训练框架,成本最高但收益也最大。 | 1M-10M+ USD |
| 推理效率优化部署 | D. 渐进式 RL 训练 | "Train Long, Think Short" 范式中,GRPO 渐进式压缩 token 预算。百度文心 5.1 成本降至行业 6% 证明了极端优化的可行性。 | 推理成本降低 40-70% |
| 领域专业化/垂直模型 | A+D 组合:课程学习 + 领域渐进式 RL | ACER 方法使用 Bloom 分类法学课的合成数据做课程学习,再配合领域特定 RL。美团 LongCat-Flash 域并行 RL 也是成功案例。 | 20K-100K USD |
第四部分:精华整合
4.1 The One 公式
这个公式揭示了一个悖论:渐进式训练的本质是在"逐步增加难度"和"逐步扩大容量"之间寻找最优节奏,同时必须不断对抗阶段切换带来的知识遗忘——就像攀岩时既要点到更高的位置,又要确保没有滑落。
4.2 一句话解释
大模型渐进式训练就像教一个学生——先学加减法再用计算器、先写短句再写长文、先模仿后创作,而不是第一天就让 TA 写一篇博士论文。
4.3 核心架构图
训练开始 → [阶段1: 简单数据 + 小模型]
↓ (数据难度递增 + 模型层数增加)
[阶段2: 中等数据 + 中层数模型]
↓ (加入指令数据 + 切换到 SFT 目标)
[阶段3: 复杂数据 + 全模型 + 指令学习]
↓ (加入奖励信号 + 切换到 RL 目标)
[阶段4: 全难度数据 + 全模型 + 偏好对齐]
↓
训练完成 → [可部署模型]
4.4 STAR 总结
Situation(背景与痛点)
当前大模型训练面临的核心矛盾是"规模与效率"的冲突。以 GPT-4 为代表的千亿参数模型训练成本高达数千万美元,且存在严重的资源浪费——训练中后期约 40% 的 token 对模型学习贡献甚微(Tirumala et al., 2023)。同时,传统"从零训练"模式要求每次从头起步,无法复用已有的小模型训练成果。行业急需在保持最终性能的前提下大幅降低训练计算成本的方法。
Task(核心问题)
如何在多阶段训练过程中,通过动态调整模型架构、数据分布和训练目标,实现计算效率的最大化?关键约束包括:(1) 保证最终模型性能不低于甚至超越独立训练的基线;(2) 避免阶段切换带来的知识遗忘;(3) 自动化调度各阶段的转换时机和参数配比,减少人工调优成本。
Action(主流方案)
2025-2026 年,该领域经历了从单维度到多维度联动的重要演进。早期工作(CompoundGrow 2021、bert2BERT 2022)专注于模型架构的渐进生长。2023-2024 年随着 RLHF 的成熟,多阶段后训练管线(SFT→RL→蒸馏)成为行业标准。2025 年 CGLS 首次实现了数据难度与模型深度的同步联动,MIDAS 发现了"中间层插入"优于"尾部插入"的重要规律。2026 年的关键突破包括:隐式课程假设的提出(技能涌现具跨模型一致性)、PRISM 对中训练的系统性解析(重塑 90%+ 参数)、以及 Efficient Model Family Construction(从 1B 渐进扩展到 8B,计算节省 25%)。
Result(效果与建议)
当前最佳实践表明:(1) 中等规模预训练中,课程学习可减少 18-45% 训练步数;(2) 对于 10B+ 模型的家族构建,渐进式模型扩展可节省约 25% 的计算量;(3) 中训练(Mid-Training)是性价比最高的质量提升手段(+15-40 分)。(4) 三维联动渐进(数据+模型+目标同步演进)代表未来方向,但实现复杂度极高,目前仅大厂具备完整实践能力。实操建议:对中小团队,优先采用"课程学习 + OpenRLHF 后训练管线"的组合;对大型团队,尝试将中训练纳入标准训练流程并关注 CGLS 类联动策略。
4.5 理解确认问题
Q: 如果一家 AI 公司想在 8 个 GPU 上以最低成本训练一个 7B 模型,它应该如何设计训练策略?请说明你的方案选择的依据。
参考答案要点:
- 数据层面:使用难度分层(按压缩率/MTLD 排序),前 30% 训练步数仅使用简单数据(warmup 式课程学习),后续恢复随机采样。根据 EACL 2026 经验,这样可减少约 20% 训练步数。
- 模型层面:不从零训练 7B 模型,而是先训练一个 1B 模型收敛后,通过 Function-Preserving 初始化扩展为 7B 模型继续训练(借鉴 COLM 2025 方法)。这样前期 1B 训练速度快 7 倍,总计算量节省约 25%。
- 训练目标层面:预训练完成后,加入中训练阶段(对数学和代码数据继续预训练),然后使用 OpenRLHF 进行 SFT + GRPO 对齐。PRISM 表明中训练可加+15~+40 分。
- 总成本估算:相比独立训练 7B,该方案可节省约 30-40% 总计算量,约等效于 5-6 个 GPU 跑完全程。
附录
A. 数据来源汇总
| 类别 | 数量 | 数据日期范围 |
|---|---|---|
| GitHub 项目 | 16 个 | 2021-2026 |
| 学术论文 | 18+ 篇 | 2020-2026 |
| 技术博客 | 11 篇 | 2025-2026 |
| 行业实践 | 6 项 | 2025-2026 |
B. 缩略语对照
| 缩写 | 全称 |
|---|---|
| CGLS | Curriculum-Guided Layer Scaling |
| GRPO | Group Relative Policy Optimization |
| RLHF | Reinforcement Learning from Human Feedback |
| RLAIF | Reinforcement Learning from AI Feedback |
| SFT | Supervised Fine-Tuning |
| DPO | Direct Preference Optimization |
| MIDAS | Middle Insertion Depth-wise Architecture Scaling |
| POCL | Progressive Overload Curriculum Learning |
| CCL | Customized Curriculum Learning |
| FPI | Function-Preserving Initialization |
本报告基于截至 2026-05-13 的公开信息撰写,数据来源包括 GitHub、arXiv、Google Scholar、各大学术会议论文集及技术博客。文中所有影响力和指标数据均为调研时的快照值,可能随时间变化。
评论
评论加载中...