大模型持续预训练与领域适应技术 — 深度调研报告

调研日期：2026-05-19 | 所属域：大模型训练

第一部分：概念剖析

1.1 定义澄清

通行定义

大模型持续预训练（Continual Pre-training, CPT） 是指在通用预训练完成之后，在不遗忘已有能力的前提下，让大语言模型（LLM）持续吸收新领域知识或新时间窗口数据的训练范式。领域适应（Domain Adaptation） 是 CPT 的核心应用场景——将通用模型特化为某垂直领域（如医疗、法律、金融）的专家模型。

常见误解

#	误解	纠正
1	CPT 等同于 Fine-tuning（微调）	CPT 是在大规模领域语料上继续预训练（next-token prediction），目标是注入新知识；而 Fine-tuning 通常指在小规模指令数据上做监督学习，目标是对齐行为
2	领域适应只需要 SFT 就够了	SFT 只能改变模型的行为风格，无法注入深层领域知识（如专业术语、推理模式）。CPT 是知识注入的必要步骤
3	CPT 越多越好	过度 CPT 会导致灾难性遗忘（Catastrophic Forgetting）——模型在新领域上越好，在通用能力上退化越严重。同时存在 "适应刚性" 现象——预训练越充分的模型越难适应新领域

边界辨析

易混淆概念	与 CPT/领域适应的核心区别
SFT（指令微调）	SFT 优化行为对齐（instruction following），CPT 优化知识注入（knowledge acquisition）
RAG（检索增强生成）	RAG 通过外部检索注入知识（不修改模型权重），CPT 将知识编码进模型参数中
Full Pre-training（从头预训练）	从随机权重开始训练，成本极高（百万美元级）；CPT 从已有 checkpoint 继续训练，成本低一个数量级

1.2 核心架构

┌──────────────────────────────────────────────────────────────┐
│              大模型持续预训练（CPT）系统架构                      │
├──────────────────────────────────────────────────────────────┤
│                                                                 │
│  ┌──────────┐    ┌──────────────┐    ┌───────────────────┐     │
│  │ 领域语料  │───▶│  数据混合器   │───▶│  持续预训练引擎    │     │
│  │ (Domain   │    │ (Domain      │    │  (CPT Engine)     │     │
│  │  Corpus)  │    │  Mixer)      │    │                   │     │
│  └──────────┘    └──────────────┘    └────────┬──────────┘     │
│       │                ▲                      │                │
│       │          ┌─────┴──────┐               ▼                │
│       │          │ 数据质量    │       ┌───────────────────┐     │
│       │          │ 筛选 & 权重  │       │  遗忘检测 & 回放    │     │
│       │          │ 学习(RL)   │       │  (Forgetting      │     │
│       │          └────────────┘       │   Detection &     │     │
│       ▼                               │   Replay)         │     │
│  ┌──────────┐                         └────────┬──────────┘     │
│  │通用语料  │                                  │                │
│  │(General  │           ┌───────────────────────▼──────────┐    │
│  │ Corpus)  │           │        模型存储 & 版本管理         │    │
│  └──────────┘           │  (Base → CPT → Merged → SFT)    │    │
│                         └───────────────────────────────┬──┘    │
│                                                         ▼      │
│                                           ┌───────────────────┐ │
│                                           │  领域适应评估      │ │
│                                           │  (Domain Eval:    │ │
│                                           │  通用+专精基准)    │ │
│                                           └───────────────────┘ │
└──────────────────────────────────────────────────────────────┘

组件说明：

领域语料：来自目标领域的大规模无标注文本（如 PubMed 论文、法律判例、财务报告）
数据混合器：决定通用数据与领域数据的混合比例，是最关键的工程决策
持续预训练引擎：执行 next-token prediction 训练，支持 PEFT（LoRA）或全参数更新
遗忘检测 & 回放：监控通用能力退化，必要时回放通用数据
数据质量筛选：2025-2026 年的新趋势——通过 RL 代理模型自动学习最优数据混合策略

1.3 数学形式化

公式 1：持续预训练目标函数

\mathcal{L}_{\text{CPT}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}_{\text{mix}}} \left[ -\sum_{t=1}^{|x|} \log P_\theta(x_t | x_{<t}) \right]

其中 $\mathcal{D}_{\text{mix}} = \lambda \cdot \mathcal{D}_{\text{domain}} + (1-\lambda) \cdot \mathcal{D}_{\text{general}}$ ， $\lambda$ 是领域数据混合比例。> 核心思想：在领域语料上继续做自回归语言建模，同时保留通用数据防止遗忘。

公式 2：灾难性遗忘的量化——后向迁移（Backward Transfer, BWT）

\text{BWT} = \frac{1}{T-1} \sum_{i=1}^{T-1} (a_{T,i} - a_{i,i})

其中 $a_{T,i}$ 是在学习完第 $T$ 个领域后在任务 $i$ 上的性能， $a_{i,i}$ 是在学习完任务 $i$ 后的峰值性能。> BWT 越接近 0 表示遗忘越少（TFGN 在 LLaMA 3.1 8B 上达到 BWT = -0.007）。

公式 3：数据混合优化的双层规划

\min_{\lambda} \mathcal{L}_{\text{val}}(\theta^*(\lambda)) \quad \text{s.t.} \quad \theta^*(\lambda) = \arg\min_\theta \mathcal{L}_{\text{CPT}}(\theta; \lambda)

外层优化数据混合比例 $\lambda$ ，内层优化模型参数 $\theta$ 。> 这是 Data Mixing Agent 的核心形式——将数据混合建模为可学习的元优化问题。

公式 4：正交梯度投影（Orthogonal Gradient Projection）

\nabla_{\text{proj}} = \nabla_{\text{new}} - \frac{\nabla_{\text{new}} \cdot \nabla_{\text{old}}}{\|\nabla_{\text{old}}\|^2} \nabla_{\text{old}}

将新领域梯度投影到旧领域梯度空间的正交方向上。> TFGN 实现了 99.59% 的 L2-正交梯度分离——新知识更新不干扰旧知识的参数空间。

公式 5：适应刚性（Adaptation Rigidity）

\Delta_{\text{perf}} = f_{\text{post-CPT}}(x) - f_{\text{base}}(x) \propto \frac{\mathcal{I}_{\text{domain}}}{\mathcal{I}_{\text{total}}}

领域适应收益与模型在预训练中见过的总信息量 $\mathcal{I}_{\text{total}}$ 成反比。> LLaMat 实验发现：LLaMA-3 由于预训练更充分，比 LLaMA-2 更难通过 CPT 适应材料科学领域。

1.4 实现逻辑（Python 伪代码）

class ContinualPretrainer:
    """持续预训练核心系统"""
    def __init__(self, base_model, config):
        self.base_model = base_model          # 通用预训练模型
        self.tokenizer = config.tokenizer
        self.mixer = DomainDataMixer(config.mix_ratio)   # 数据混合器
        self.strategy = CPTStrategy(config.strategy)     # 策略: full/lora/adept
        self.forgiveness_monitor = ForgivenessMonitor()  # 遗忘检测器

    def train_step(self, domain_data, general_data):
        """单步训练：混合数据 -> 前向 -> 反传 -> 遗忘检测"""
        # 1. 数据混合
        batch = self.mixer.mix(domain_data, general_data)

        # 2. 前向传播
        outputs = self.base_model(
            input_ids=batch["input_ids"],
            labels=batch["labels"]
        )
        loss = outputs.loss

        # 3. 根据策略选择更新方式
        if self.strategy.type == "orthogonal":
            # 正交梯度投影（如 TFGN）
            grad = self._compute_orthogonal_gradient(
                loss, self.strategy.memory_bank
            )
        elif self.strategy.type == "selective_expansion":
            # 选择性层扩展（如 ADEPT）
            self.strategy.dynamic_tuning(loss, criticality_scores)
        else:
            # 标准 LoRA / 全参数
            loss.backward()

        # 4. 遗忘检测
        forget_score = self.forgiveness_monitor.evaluate(self.base_model)
        if forget_score > config.forgiveness_threshold:
            self._trigger_replay()  # 触发数据回放

        return {"loss": loss.item(), "forget_score": forget_score}


class DomainDataMixer:
    """智能领域数据混合器"""
    def __init__(self, alpha_rl_agent=None):
        self.alpha_rl_agent = alpha_rl_agent or DataMixingAgent()
        self.static_ratio = 0.5  # 默认 50:50 混合

    def mix(self, domain_data, general_data):
        """决定当前 step 的领域/通用数据比例"""
        if self.alpha_rl_agent:
            alpha = self.alpha_rl_agent.predict()  # 动态最优比例
        else:
            alpha = self.static_ratio
        # 按 alpha 比例采样
        return self._sample(domain_data, general_data, alpha)

1.5 性能指标

指标	典型目标值	测量方式	说明
后向迁移（BWT）	> -0.01	多领域顺序训练后评测	衡量遗忘程度，越接近 0 越好
前向迁移（FWT）	> 0.05	新领域学习速度	过往知识对新任务学习的帮助
领域 benchmark 提升	> +5%	领域标准评测集	如 PubMedQA（医疗）、LegalBench
通用 benchmark 维持	< -3% 退化	MMLU/GSM8K/HellaSwag	防止通用能力过度损失
训练效率	< 50% 全参数时间	对比 full-param CPT	ADEPT 目标：15% 参数，50% 时间
参数量利用率	活跃参数 / 总参数	PEFT vs Full 对比	如 LoRA 仅更新 0.1-2% 参数

1.6 扩展性与安全性

水平扩展

数据并行：领域语料可分割到多节点，每个节点处理不同数据分片
模型并行：对于 70B+ 模型，需结合张量并行（TP）和流水线并行（PP）
持续学习集群：多模型版本并行训练，评估后选择最优合并策略

垂直扩展

单节点上限：受显存限制，单 GPU（H100 80GB）最大支持约 13B 模型全参数 CPT，或 70B 模型 LoRA CPT
扩展瓶颈：全参数 CPT 在 8B+ 规模上显存需求呈超线性增长

安全考量

知识污染：低质量或错误领域语料会将错误知识编码进模型
领域泄露：领域适应后的模型可能意外泄露敏感领域数据
灾难性遗忘：最大的技术风险——过度适应导致通用能力崩溃
数据合规：医疗、金融等领域的语料受严格隐私法规约束（HIPAA、GDPR 等）

第二部分：行业情报

2.1 GitHub 热门项目

项目	Stars	核心功能	技术栈	最后更新	链接
microsoft/LMOps (含 AdaptLLM)	~4,350	领域适应CPT（医/法/金融）+Instruction-Pretrain	PyTorch, Transformers	2026-04	GitHub
llm-continual-learning-survey	~535	持续学习综合综述 + 论文分类 & 基准	-	2025	GitHub
ContinualLM	~215	LM持续学习框架，含DAS/CPT/DGA等方法实现	PyTorch, Transformers	2025	GitHub
ProX (GAIR-NLP)	~169	数据质量精炼框架，支持持续预训练数据清洗	Python, LM-based	2025	GitHub
ADEPT	New	自适应层扩展 + 解耦调优	PyTorch, CUDA	2025-10	GitHub
Chameleon (EPFL)	New	Leverage-score数据混合框架	Python, Numpy	2025	GitHub
DoMIX	New	LoRA并行领域适应，抗遗忘	PyTorch, PEFT	2025	GitHub
YaPO (MBZUAI)	New	可学习稀疏激活导向向量	PyTorch	2026-01	GitHub
GAIN	New	乘法调制，仅46K-230K额外参数	PyTorch	2026-04	GitHub (new)
FinDAP (Salesforce)	New	金融领域 CPT+SFT+RL 三阶段流水线	PyTorch, TRL	2025-10	GitHub
Alignment Handbook (HF)	>5,000	含CPT训练配方（GPT2-NL语言适应）	TRL, Transformers	2026	GitHub
StatLLaMA	New	统计学领域 CPT+SFT+RLHF	LLaMA-3.2-3B	2026	GitHub
RedSage	New	网络安全领域 CPT（11.8B tokens）	LLaMA-3.1-8B	2026-01	Project Page
TiC-LM (Apple)	New	时间持续预训练基准(114个Common Crawl快照)	PyTorch	2025	GitHub
AdaptLLM (HF Org)	-	医疗/法律/金融7B/13B基座+对话模型	Transformers	2025	HuggingFace

2.2 关键论文（12 篇）

论文	作者/机构	年份	会议/期刊	核心贡献	链接
TFGN: Task-Free Replay-Free CPT	Anurup Ganguli	2026	arXiv	架构级无重放CPT，BWT=-0.007	arXiv
Data Mixing Agent	Kailai Yang, Microsoft Research	2026	arXiv	RL学习领域重加权，通用3.02%提升	arXiv
ADEPT	多机构	2025	ICLR 2026	选择性层扩展+解耦调优，15%参数	arXiv
OP-Mix: On-Policy Data Mixing	Michael Hu, NYU/MS	2026	arXiv	全生命周期数据混合，LoRA插值	arXiv
AdaptLLM (Reading Comprehension)	Daixuan Cheng, Microsoft	2024	ICLR 2024	将语料转化为阅读理解格式进行CPT	arXiv
Continual Learning of LLMs: Survey	Wang et al., Rutgers	2025	ACM CSUR	垂直+水平持续学习分类法	ACM
Towards Lifelong Learning of LLMs	Zheng et al.	2024	arXiv	内部+外部知识分类法	arXiv
GRAPE: Multi-target DAP	多机构	2025	NeurIPS 2025	Minimax优化多目标领域重加权	NeurIPS
Nemotron-CLIMB	NVIDIA	2025	NeurIPS 2025	聚类迭代数据混合自举	NeurIPS
LLaMat: Materials Science	多机构	2026	Nature MI	材料科学CPT + "适应刚性"发现	Nature
DeFineMed: Medical Domain	Niclas Doll et al.	2026	ACL 2026	7B医疗模型超越24B通用模型	arXiv
CRAFT: Forgetting-Aware Adaptation	多机构	2026	arXiv	隐表示层低秩干预，无需权重更新	arXiv

论文推荐阅读优先级

实操入门：AdaptLLM (ICLR 2024) — 最成熟的领域适应框架
最新SOTA：TFGN (2026.05) — 架构级无遗忘CPT
前沿趋势：Data Mixing Agent (2026) — RL驱动数据混合
必读综述：Rutgers Survey (ACM CSUR 2025) — 系统性分类

2.3 系统化技术博客（10 篇）

博客标题	作者/来源	语言	类型	核心内容	日期	链接
Continued Pretraining (CPT) Recipe	Hugging Face Alignment Handbook	英文	官方文档	CPT完整训练配方（TRL实现）	2025	DeepWiki
Continued Pretraining Blog	CERC-AAI Lab (Irina Lab)	英文	深度实验	CL-FoMo 410M/9.6B实践，LR调度+重放策略	2025	Irina Lab
Vertical AI: Why General Models Are Failing	HarrisonAIX	英文	行业分析	垂直LLM市场预测（2026爆发年）	2026	HarrisonAIX
21 LLMs Tuned for Special Domains	InfoWorld	英文	综述盘点	21个领域专用LLM横向对比	2025	InfoWorld
Rise of Vertical LLMs	Allied Advisers	英文	行业分析	垂直LLM市场 $2.9B→$ 18.7B增长预测	2026	Allied Advisers
FinDAP Post-training Research Hub	Salesforce AI	英文	教程	金融领域CPT+SFT+RL完整流水线	2025-09	GitHub
Representation Model for Catastrophic Forgetting	Alex Finch (GitHub Gist)	英文	技术提案	辅助表示模型+残差流读写防遗忘	2025	Gist
LLaMat: Materials Domain Adaptation	Nature MI Blog	英文	研究解读	材料科学CPT与适应刚性发现	2026	Nature MI
Data Mixing for LLM Pretraining Survey	Data Intelligence	英文	综述	数据混合方法全面分类与展望	2026-03	arXiv
领域专用LLM：从通用到专用的演进	机器之心/PaperWeekly（推荐）	中文	行业解读	中文语境下的领域适应技术分析	2025-2026	知乎/机器之心

2.4 技术演进时间线

时间	事件	发起方	影响
2020	GPT-3 发布，展示大规模LM的少样本能力	OpenAI	开启"预训练+提示"范式
2022.12	ChatGPT 发布，指令微调流行	OpenAI	SFT+RLHF 成为对齐标准
2023.03	BloombergGPT（50B）发布	Bloomberg	验证大规模领域预训练可行性
2023.05	AdaptLLM (ICLR 2024)提出阅读理解格式CPT	Microsoft	解决CPT中prompt能力遗忘问题
2023.09	FinGPT 开源框架发布	AI4Finance	LoRA领域微调低成本范式
2024.03	LLaMat发现"适应刚性"	多机构	揭示过度预训练模型的适应瓶颈
2024.06	Instruction-Pretrain 发布	Microsoft	通用化CPT格式，同时适用于从零预训练和CPT
2025.05	DoMIX (ACL 2025) PEFT并行DAP	多机构	LoRA模块并行处理多领域数据
2025.09	GRAPE (NeurIPS 2025)多目标DAP	多机构	Minimax优化多目标领域适应
2025.10	ADEPT (ICLR 2026)选择性层扩展	多机构	15%参数超越全参数CPT
2025.11	Nemotron-CLIMB 聚类迭代数据混合	NVIDIA	自动化数据混合+1.2T语料库开源
2025.12	Continual Learning Survey (ACM CSUR)	Rutgers	系统化"垂直+水平"持续学习分类
2026.01	YaPO 稀疏激活导向向量	MBZUAI	细粒度领域适应新范式
2026.04	Data Mixing Agent (RL驱动混合)	Microsoft	首个端到端模型化数据混合策略
2026.04	GAIN 乘法调制（仅46K参数）	多机构	极轻量领域适应新方法
2026.05	TFGN 无重放无遗忘CPT架构	Ganguli	架构级抗遗忘，BWT接近于零

第三部分：方案对比

3.1 历史发展时间线

2022 ── 初始阶段：BloombergGPT 验证大规模领域预训练可行性
  │      └─ 从零预训练（最贵，但效果最好）；只适用于预算充足的大机构
2023 ── PEFT 革命：AdaptLLM、FinGPT 引入 LoRA 进行成本有效的领域适应
  │      └─ LoRA 微调（性价比高）；但知识注入深度有限
2024 ── C"P"T 规范化：Instruction-Pretrain、DoMIX 规范化持续预训练流程
  │      └─ 全参数 CPT（效果均衡）；面临灾难性遗忘挑战
2025 ── 智能混合时代：Data Mixing Agent、GRAPE、Nemotron-CLIMB
  │      └─ RL 驱动混合 + 多目标优化（最前沿）；复杂度高
2026 ── 架构级创新：TFGN、ADEPT、GAIN 从根本上解决遗忘问题
  │      └─ 选择性扩展 + 正交梯度 + 乘法调制（最新趋势）
  └── 当前状态：从"如何注入知识"转向"如何不遗忘"+"如何自动化混合"

3.2 5 种方案横向对比

方案一：全参数持续预训练（Full-parameter CPT）

维度	详情
原理	在领域语料上对所有模型参数进行完整 next-token prediction 训练
优点	① 知识注入最深，领域性能提升最大 ② 无架构复杂度和额外设计 ③ 实现简单，标准训练流程
缺点	① 灾难性遗忘最严重（通用能力退化可达 10-20%）② 计算成本高（全量反向传播）③ 需要维护通用数据混合
适用场景	预算充足、领域知识深度要求的场景（如医学、法律专用模型）
成本量级	~$50-200K / 次（基于 8B 模型 + 50B tokens）

方案二：LoRA/QLoRA 参数高效微调

维度	详情
原理	冻结原始权重，在每层插入低秩适配矩阵（rank=8~64），仅更新适配器参数
优点	① 极低成本（可消费级 GPU 运行）② 基础权重不变，几乎不遗忘 ③ 可同时训练多个领域适配器
缺点	① 知识注入深度有限，无法学习全新推理模式 ② 领域性能提升不如全参数 ③ 低秩假设可能限制长期数据吸收
适用场景	预算有限的多领域快速适配、原型验证
成本量级	~$1-10K / 次（基于 8B 模型 + QLoRA）

方案三：选择性参数扩展（ADEPT 类）

维度	详情
原理	评估每层对通用能力的重要性，选择性复制"最不关键"的层增加容量，再用不对称学习率解耦调优
优点	① 仅 15% 参数被实质更新 ② 通用能力提升 5.76%、领域能力提升 5.58% ③ 训练时间减少 50%+
缺点	① 架构复杂度高 ② 层重要性评估需额外计算 ③ 模型尺寸略微增大（扩展层）
适用场景	追求 CPT 性价比最优的场景（推荐中型团队首选）
成本量级	~$10-50K / 次

方案四：正交梯度 / 任务无关架构（TFGN 类）

维度	详情
原理	在 Transformer 架构中增加"读/写分解"覆盖层，使不同领域的梯度更新自然正交，互不干扰
优点	① BWT ≈ 0（几乎无遗忘）② 无需重放缓冲区、任务 ID 或正则惩罚 ③ 支持跨领域正向迁移
缺点	① 属于较新的方法（2026.05），工程验证尚不足 ② 需要修改模型架构 ③ 前向推理增加少量开销
适用场景	对遗忘极为敏感的持续学习场景（多领域顺序学习）
成本量级	~$30-80K / 次（需架构修改）

方案五：数据驱动混合优化（Data Mixing Agent / GRAPE 类）

维度	详情
原理	不修改模型架构或训练方法，而是用 RL / Minimax 优化领域数据的混合比例，作为 CPT 的上层策略
优点	① 可插拔——兼容任意底层 CPT 方法 ② 泛化性强（跨领域、跨模型）③ 仅需 2.1M 参数的代理模型
缺点	① 需要额外训练数据混合代理 ② 优化过程本身有计算成本 ③ 对领域定义敏感
适用场景	多领域、多任务的复杂数据混合场景
成本量级	~$5-20K（代理训练）+ 底层 CPT 成本

方案六：乘法调制（GAIN 类）

维度	详情
原理	通过在 Transformer 层的 hidden states 上施加乘法缩放（而非 LoRA 的加法残差）来实现领域适应
优点	① 极轻量（仅 46K-230K 额外参数）② 遗忘极少（7 轮顺序适应后 BoolQ 仅降 0.8%）③ 基础权重冻结
缺点	① 2026 年最新方法，生态未成熟 ② 仅通过缩放无法学习全新知识 ③ 效果上限可能受限
适用场景	资源极度受限的快速领域适配
成本量级	~$0.5-3K / 次

3.3 技术细节对比

维度	全参数 CPT	LoRA PEFT	ADEPT	TFGN	数据混合优化	GAIN
领域知识注入深度	★★★★★	★★★☆☆	★★★★☆	★★★★☆	★★★★☆ (配合底层)	★★★☆☆
通用能力保持	★★☆☆☆	★★★★★	★★★★★	★★★★★	★★★★☆	★★★★★
训练成本	高	极低	中	中高	中（+代理训练）	极低
实现复杂度	低	低	高	高	中	中
生态成熟度	★★★★★	★★★★★	★★★☆☆	★★☆☆☆	★★★☆☆	★★☆☆☆
可扩展性	★★★☆☆	★★★★★	★★★★☆	★★★★☆	★★★★★	★★★★★
社区活跃度	高	极高	中	低（新）	中	低（新）
学习曲线	低	低	高	高	中	中

3.4 选型建议

场景	推荐方案	核心理由	预估月成本*
学术研究 / 原型验证	LoRA/QLoRA + 简单的数据混合	消费级 GPU 即可运行，社区工具链成熟（PEFT/TRL）	$500-2,000
中小团队垂直领域模型（医疗/法律）	ADEPT 类选择性扩展 + 50%:50% 领域:通用数据混合	最优性价比，15%参数开销即可超越全参数CPT	$8,000-20,000
大企业多领域持续学习平台	TFGN 类架构 + Data Mixing Agent	架构级抗遗忘 + RL驱动数据混合，实现自动化持续学习平台	$30,000-80,000
金融领域高精度模型	全参数 CPT + GRAPE 多目标优化 + 模型合并	金融领域对精度要求最高，全参数 CPT 提供最深知识注入	$50,000-150,000
资源极度受限的快速适配	GAIN 乘法调制	仅 46K 参数，可在单张 GPU 上数小时完成适配	$200-1,000
多语言持续CPT	LoRA + COMPASS 语义聚类采样	轻量级语言专用适配器，支持生产环境分布漂移检测	$3,000-8,000

*基于云 GPU（H100 80GB）租赁成本估算，实际成本因数据量、迭代次数等因素而异。

第四部分：精华整合

4.1 The One 公式

\text{持续预训练与领域适应} = \underbrace{\text{知识注入}}_{\text{追求领域精通}} + \underbrace{\text{能力保持}}_{\text{抵抗灾难性遗忘}} - \underbrace{\text{适应刚性}}_{\text{过度预训练模型越发"僵硬"}}

4.2 一句话解释

想象一个已经学会"通用常识"的博士生，现在需要专攻"医学"——持续预训练就是让他在不忘记已有知识的前提下，阅读海量医学文献成为领域专家，而不是从头再读一遍大学。

4.3 核心架构图（简化版）

通用语料 ──┐
           ├──▶ [数据混合器] ──▶ [CPT训练引擎] ──▶ [领域专家模型]
领域语料 ──┘        ↑                          │
                    │                          ├──▶ 通用能力保持不变
               [RL代理/规则]                    └──▶ 领域能力大幅提升
               (自动优化混合比例)

4.4 STAR 总结

Situation（背景 + 痛点）

大语言模型（如 GPT-4、LLaMA-3）在通用任务上表现卓越，但在医疗诊断、法律推理、金融分析等垂直领域存在显著的知识盲区。传统的"通用模型 + 提示工程"方法无法满足专业场景对深层领域知识的严苛要求。与此同时，从零训练领域专用模型的成本高达数百万美元，绝大多数组织无法承受。

Task（核心问题）

核心问题是：如何让一个已经完成通用预训练的大模型，高效地吸收大量新领域知识，同时不遗忘其已有的通用能力？这需要在"知识注入深度"和"遗忘控制"之间找到最优平衡，并解决"适应刚性"（模型越强越难适应）这一根本性挑战。

Action（主流方案）

技术演进经历了四个阶段：(1) 全参数 CPT——效果最好但遗忘最严重；(2) LoRA 等 PEFT 方法——成本低但知识注入有限；(3) 数据混合优化（RL 驱动的 Data Mixing Agent、Minimax 优化的 GRAPE）——可插拔的上层策略；(4) 架构级创新（TFGN 的正交梯度、ADEPT 的选择性扩展、GAIN 的乘法调制）——从根本上解决遗忘问题。2025-2026 年，RL 驱动数据混合和架构级抗遗忘是最重要的两大突破方向。

Result（效果 + 建议）

当前，ADEPT 以 15% 参数开销实现全参数 CPT 的性能、TFGN 实现近乎零遗忘的持续学习。实操建议：中小团队优先选择 ADEPT 类选择性扩展方案；预算极度有限可选用 GAIN 或 LoRA；构建大规模持续学习平台应关注 TFGN + Data Mixing Agent 的组合方案。核心选型基准是"领域知识深度 vs 通用能力保持 vs 训练成本"的三角平衡。

4.5 理解确认问题

问题：如果你用 100B tokens 的法律领域语料对一个通用 LLM 做 CPT，训练后模型在法律 benchmark 上提升了 15%，但在 MMLU 通用 benchmark 上下降了 12%。请分析可能的原因，并提出至少两种缓解策略。

参考答案：

原因：灾难性遗忘（Catastrophic Forgetting）——新领域的梯度更新覆盖了通用知识对应的参数。同时可能涉及"适应刚性"——如果基础模型是 LLaMA-3 级别，CPT 的收益（+15%）本身可能低于在较弱模型上做 CPT 的收益。
缓解策略：(1) 数据混合——在 CPT 时混合 30-50% 的通用数据（如 Data Mixing Agent 自动优化比例）。(2) 选择性更新——使用 ADEPT 仅更新对通用能力"最不关键"的层参数。(3) 正交梯度——使用 TFGN 或 OGD 确保法律数据的梯度更新与通用知识正交。(4) 回放策略——在 CPT 过程中定期评估通用 benchmark，触发通用数据回放（如 GeRe 框架）。

附录

数据来源

本报告数据来源包括但不限于：

arXiv 预印本论文（截至 2026 年 5 月）
GitHub 仓库实时 Stars 数据
NeurIPS 2025、ICLR 2026、ACL 2026 等顶级会议论文
Nature Machine Intelligence 等权威期刊
Hugging Face 官方文档与模型库
行业分析报告（Allied Advisers、InfoWorld 等）

声明：GitHub Stars 数据为采集时的近似值，实际数量可能因时间推移而变化。成本估算基于 2026 年云 GPU 市场价格，仅供参考。