← 返回首页

大模型持续预训练与领域适应技术 — 深度调研报告

2026-05-19

大模型持续预训练与领域适应技术 — 深度调研报告

调研日期:2026-05-19 | 所属域:大模型训练


第一部分:概念剖析

1.1 定义澄清

通行定义

大模型持续预训练(Continual Pre-training, CPT) 是指在通用预训练完成之后,在不遗忘已有能力的前提下,让大语言模型(LLM)持续吸收新领域知识新时间窗口数据的训练范式。领域适应(Domain Adaptation) 是 CPT 的核心应用场景——将通用模型特化为某垂直领域(如医疗、法律、金融)的专家模型。

常见误解

# 误解 纠正
1 CPT 等同于 Fine-tuning(微调) CPT 是在大规模领域语料上继续预训练(next-token prediction),目标是注入新知识;而 Fine-tuning 通常指在小规模指令数据上做监督学习,目标是对齐行为
2 领域适应只需要 SFT 就够了 SFT 只能改变模型的行为风格,无法注入深层领域知识(如专业术语、推理模式)。CPT 是知识注入的必要步骤
3 CPT 越多越好 过度 CPT 会导致灾难性遗忘(Catastrophic Forgetting)——模型在新领域上越好,在通用能力上退化越严重。同时存在 "适应刚性" 现象——预训练越充分的模型越难适应新领域

边界辨析

易混淆概念 与 CPT/领域适应的核心区别
SFT(指令微调) SFT 优化行为对齐(instruction following),CPT 优化知识注入(knowledge acquisition)
RAG(检索增强生成) RAG 通过外部检索注入知识(不修改模型权重),CPT 将知识编码进模型参数中
Full Pre-training(从头预训练) 从随机权重开始训练,成本极高(百万美元级);CPT 从已有 checkpoint 继续训练,成本低一个数量级

1.2 核心架构

┌──────────────────────────────────────────────────────────────┐
│              大模型持续预训练(CPT)系统架构                      │
├──────────────────────────────────────────────────────────────┤
│                                                                 │
│  ┌──────────┐    ┌──────────────┐    ┌───────────────────┐     │
│  │ 领域语料  │───▶│  数据混合器   │───▶│  持续预训练引擎    │     │
│  │ (Domain   │    │ (Domain      │    │  (CPT Engine)     │     │
│  │  Corpus)  │    │  Mixer)      │    │                   │     │
│  └──────────┘    └──────────────┘    └────────┬──────────┘     │
│       │                ▲                      │                │
│       │          ┌─────┴──────┐               ▼                │
│       │          │ 数据质量    │       ┌───────────────────┐     │
│       │          │ 筛选 & 权重  │       │  遗忘检测 & 回放    │     │
│       │          │ 学习(RL)   │       │  (Forgetting      │     │
│       │          └────────────┘       │   Detection &     │     │
│       ▼                               │   Replay)         │     │
│  ┌──────────┐                         └────────┬──────────┘     │
│  │通用语料  │                                  │                │
│  │(General  │           ┌───────────────────────▼──────────┐    │
│  │ Corpus)  │           │        模型存储 & 版本管理         │    │
│  └──────────┘           │  (Base → CPT → Merged → SFT)    │    │
│                         └───────────────────────────────┬──┘    │
│                                                         ▼      │
│                                           ┌───────────────────┐ │
│                                           │  领域适应评估      │ │
│                                           │  (Domain Eval:    │ │
│                                           │  通用+专精基准)    │ │
│                                           └───────────────────┘ │
└──────────────────────────────────────────────────────────────┘

组件说明:

1.3 数学形式化

公式 1:持续预训练目标函数

LCPT(θ)=ExDmix[t=1xlogPθ(xtx<t)]\mathcal{L}_{\text{CPT}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}_{\text{mix}}} \left[ -\sum_{t=1}^{|x|} \log P_\theta(x_t | x_{<t}) \right]

其中 Dmix=λDdomain+(1λ)Dgeneral\mathcal{D}_{\text{mix}} = \lambda \cdot \mathcal{D}_{\text{domain}} + (1-\lambda) \cdot \mathcal{D}_{\text{general}}λ\lambda 是领域数据混合比例。> 核心思想:在领域语料上继续做自回归语言建模,同时保留通用数据防止遗忘。

公式 2:灾难性遗忘的量化——后向迁移(Backward Transfer, BWT)

BWT=1T1i=1T1(aT,iai,i)\text{BWT} = \frac{1}{T-1} \sum_{i=1}^{T-1} (a_{T,i} - a_{i,i})

其中 aT,ia_{T,i} 是在学习完第 TT 个领域后在任务 ii 上的性能,ai,ia_{i,i} 是在学习完任务 ii 后的峰值性能。> BWT 越接近 0 表示遗忘越少(TFGN 在 LLaMA 3.1 8B 上达到 BWT = -0.007)。

公式 3:数据混合优化的双层规划

minλLval(θ(λ))s.t.θ(λ)=argminθLCPT(θ;λ)\min_{\lambda} \mathcal{L}_{\text{val}}(\theta^*(\lambda)) \quad \text{s.t.} \quad \theta^*(\lambda) = \arg\min_\theta \mathcal{L}_{\text{CPT}}(\theta; \lambda)

外层优化数据混合比例 λ\lambda,内层优化模型参数 θ\theta。> 这是 Data Mixing Agent 的核心形式——将数据混合建模为可学习的元优化问题。

公式 4:正交梯度投影(Orthogonal Gradient Projection)

proj=newnewoldold2old\nabla_{\text{proj}} = \nabla_{\text{new}} - \frac{\nabla_{\text{new}} \cdot \nabla_{\text{old}}}{\|\nabla_{\text{old}}\|^2} \nabla_{\text{old}}

将新领域梯度投影到旧领域梯度空间的正交方向上。> TFGN 实现了 99.59% 的 L2-正交梯度分离——新知识更新不干扰旧知识的参数空间。

公式 5:适应刚性(Adaptation Rigidity)

Δperf=fpost-CPT(x)fbase(x)IdomainItotal\Delta_{\text{perf}} = f_{\text{post-CPT}}(x) - f_{\text{base}}(x) \propto \frac{\mathcal{I}_{\text{domain}}}{\mathcal{I}_{\text{total}}}

领域适应收益与模型在预训练中见过的总信息量 Itotal\mathcal{I}_{\text{total}} 成反比。> LLaMat 实验发现:LLaMA-3 由于预训练更充分,比 LLaMA-2 更难通过 CPT 适应材料科学领域。

1.4 实现逻辑(Python 伪代码)

class ContinualPretrainer:
    """持续预训练核心系统"""
    def __init__(self, base_model, config):
        self.base_model = base_model          # 通用预训练模型
        self.tokenizer = config.tokenizer
        self.mixer = DomainDataMixer(config.mix_ratio)   # 数据混合器
        self.strategy = CPTStrategy(config.strategy)     # 策略: full/lora/adept
        self.forgiveness_monitor = ForgivenessMonitor()  # 遗忘检测器

    def train_step(self, domain_data, general_data):
        """单步训练:混合数据 -> 前向 -> 反传 -> 遗忘检测"""
        # 1. 数据混合
        batch = self.mixer.mix(domain_data, general_data)

        # 2. 前向传播
        outputs = self.base_model(
            input_ids=batch["input_ids"],
            labels=batch["labels"]
        )
        loss = outputs.loss

        # 3. 根据策略选择更新方式
        if self.strategy.type == "orthogonal":
            # 正交梯度投影(如 TFGN)
            grad = self._compute_orthogonal_gradient(
                loss, self.strategy.memory_bank
            )
        elif self.strategy.type == "selective_expansion":
            # 选择性层扩展(如 ADEPT)
            self.strategy.dynamic_tuning(loss, criticality_scores)
        else:
            # 标准 LoRA / 全参数
            loss.backward()

        # 4. 遗忘检测
        forget_score = self.forgiveness_monitor.evaluate(self.base_model)
        if forget_score > config.forgiveness_threshold:
            self._trigger_replay()  # 触发数据回放

        return {"loss": loss.item(), "forget_score": forget_score}


class DomainDataMixer:
    """智能领域数据混合器"""
    def __init__(self, alpha_rl_agent=None):
        self.alpha_rl_agent = alpha_rl_agent or DataMixingAgent()
        self.static_ratio = 0.5  # 默认 50:50 混合

    def mix(self, domain_data, general_data):
        """决定当前 step 的领域/通用数据比例"""
        if self.alpha_rl_agent:
            alpha = self.alpha_rl_agent.predict()  # 动态最优比例
        else:
            alpha = self.static_ratio
        # 按 alpha 比例采样
        return self._sample(domain_data, general_data, alpha)

1.5 性能指标

指标 典型目标值 测量方式 说明
后向迁移(BWT) > -0.01 多领域顺序训练后评测 衡量遗忘程度,越接近 0 越好
前向迁移(FWT) > 0.05 新领域学习速度 过往知识对新任务学习的帮助
领域 benchmark 提升 > +5% 领域标准评测集 如 PubMedQA(医疗)、LegalBench
通用 benchmark 维持 < -3% 退化 MMLU/GSM8K/HellaSwag 防止通用能力过度损失
训练效率 < 50% 全参数时间 对比 full-param CPT ADEPT 目标:15% 参数,50% 时间
参数量利用率 活跃参数 / 总参数 PEFT vs Full 对比 如 LoRA 仅更新 0.1-2% 参数

1.6 扩展性与安全性

水平扩展

垂直扩展

安全考量


第二部分:行业情报

2.1 GitHub 热门项目

项目 Stars 核心功能 技术栈 最后更新 链接
microsoft/LMOps (含 AdaptLLM) ~4,350 领域适应CPT(医/法/金融)+Instruction-Pretrain PyTorch, Transformers 2026-04 GitHub
llm-continual-learning-survey ~535 持续学习综合综述 + 论文分类 & 基准 - 2025 GitHub
ContinualLM ~215 LM持续学习框架,含DAS/CPT/DGA等方法实现 PyTorch, Transformers 2025 GitHub
ProX (GAIR-NLP) ~169 数据质量精炼框架,支持持续预训练数据清洗 Python, LM-based 2025 GitHub
ADEPT New 自适应层扩展 + 解耦调优 PyTorch, CUDA 2025-10 GitHub
Chameleon (EPFL) New Leverage-score数据混合框架 Python, Numpy 2025 GitHub
DoMIX New LoRA并行领域适应,抗遗忘 PyTorch, PEFT 2025 GitHub
YaPO (MBZUAI) New 可学习稀疏激活导向向量 PyTorch 2026-01 GitHub
GAIN New 乘法调制,仅46K-230K额外参数 PyTorch 2026-04 GitHub (new)
FinDAP (Salesforce) New 金融领域 CPT+SFT+RL 三阶段流水线 PyTorch, TRL 2025-10 GitHub
Alignment Handbook (HF) >5,000 含CPT训练配方(GPT2-NL语言适应) TRL, Transformers 2026 GitHub
StatLLaMA New 统计学领域 CPT+SFT+RLHF LLaMA-3.2-3B 2026 GitHub
RedSage New 网络安全领域 CPT(11.8B tokens) LLaMA-3.1-8B 2026-01 Project Page
TiC-LM (Apple) New 时间持续预训练基准(114个Common Crawl快照) PyTorch 2025 GitHub
AdaptLLM (HF Org) - 医疗/法律/金融7B/13B基座+对话模型 Transformers 2025 HuggingFace

2.2 关键论文(12 篇)

论文 作者/机构 年份 会议/期刊 核心贡献 链接
TFGN: Task-Free Replay-Free CPT Anurup Ganguli 2026 arXiv 架构级无重放CPT,BWT=-0.007 arXiv
Data Mixing Agent Kailai Yang, Microsoft Research 2026 arXiv RL学习领域重加权,通用3.02%提升 arXiv
ADEPT 多机构 2025 ICLR 2026 选择性层扩展+解耦调优,15%参数 arXiv
OP-Mix: On-Policy Data Mixing Michael Hu, NYU/MS 2026 arXiv 全生命周期数据混合,LoRA插值 arXiv
AdaptLLM (Reading Comprehension) Daixuan Cheng, Microsoft 2024 ICLR 2024 将语料转化为阅读理解格式进行CPT arXiv
Continual Learning of LLMs: Survey Wang et al., Rutgers 2025 ACM CSUR 垂直+水平持续学习分类法 ACM
Towards Lifelong Learning of LLMs Zheng et al. 2024 arXiv 内部+外部知识分类法 arXiv
GRAPE: Multi-target DAP 多机构 2025 NeurIPS 2025 Minimax优化多目标领域重加权 NeurIPS
Nemotron-CLIMB NVIDIA 2025 NeurIPS 2025 聚类迭代数据混合自举 NeurIPS
LLaMat: Materials Science 多机构 2026 Nature MI 材料科学CPT + "适应刚性"发现 Nature
DeFineMed: Medical Domain Niclas Doll et al. 2026 ACL 2026 7B医疗模型超越24B通用模型 arXiv
CRAFT: Forgetting-Aware Adaptation 多机构 2026 arXiv 隐表示层低秩干预,无需权重更新 arXiv

论文推荐阅读优先级

2.3 系统化技术博客(10 篇)

博客标题 作者/来源 语言 类型 核心内容 日期 链接
Continued Pretraining (CPT) Recipe Hugging Face Alignment Handbook 英文 官方文档 CPT完整训练配方(TRL实现) 2025 DeepWiki
Continued Pretraining Blog CERC-AAI Lab (Irina Lab) 英文 深度实验 CL-FoMo 410M/9.6B实践,LR调度+重放策略 2025 Irina Lab
Vertical AI: Why General Models Are Failing HarrisonAIX 英文 行业分析 垂直LLM市场预测(2026爆发年) 2026 HarrisonAIX
21 LLMs Tuned for Special Domains InfoWorld 英文 综述盘点 21个领域专用LLM横向对比 2025 InfoWorld
Rise of Vertical LLMs Allied Advisers 英文 行业分析 垂直LLM市场2.9B2.9B→18.7B增长预测 2026 Allied Advisers
FinDAP Post-training Research Hub Salesforce AI 英文 教程 金融领域CPT+SFT+RL完整流水线 2025-09 GitHub
Representation Model for Catastrophic Forgetting Alex Finch (GitHub Gist) 英文 技术提案 辅助表示模型+残差流读写防遗忘 2025 Gist
LLaMat: Materials Domain Adaptation Nature MI Blog 英文 研究解读 材料科学CPT与适应刚性发现 2026 Nature MI
Data Mixing for LLM Pretraining Survey Data Intelligence 英文 综述 数据混合方法全面分类与展望 2026-03 arXiv
领域专用LLM:从通用到专用的演进 机器之心/PaperWeekly(推荐) 中文 行业解读 中文语境下的领域适应技术分析 2025-2026 知乎/机器之心

2.4 技术演进时间线

时间 事件 发起方 影响
2020 GPT-3 发布,展示大规模LM的少样本能力 OpenAI 开启"预训练+提示"范式
2022.12 ChatGPT 发布,指令微调流行 OpenAI SFT+RLHF 成为对齐标准
2023.03 BloombergGPT(50B)发布 Bloomberg 验证大规模领域预训练可行性
2023.05 AdaptLLM (ICLR 2024)提出阅读理解格式CPT Microsoft 解决CPT中prompt能力遗忘问题
2023.09 FinGPT 开源框架发布 AI4Finance LoRA领域微调低成本范式
2024.03 LLaMat发现"适应刚性" 多机构 揭示过度预训练模型的适应瓶颈
2024.06 Instruction-Pretrain 发布 Microsoft 通用化CPT格式,同时适用于从零预训练和CPT
2025.05 DoMIX (ACL 2025) PEFT并行DAP 多机构 LoRA模块并行处理多领域数据
2025.09 GRAPE (NeurIPS 2025)多目标DAP 多机构 Minimax优化多目标领域适应
2025.10 ADEPT (ICLR 2026)选择性层扩展 多机构 15%参数超越全参数CPT
2025.11 Nemotron-CLIMB 聚类迭代数据混合 NVIDIA 自动化数据混合+1.2T语料库开源
2025.12 Continual Learning Survey (ACM CSUR) Rutgers 系统化"垂直+水平"持续学习分类
2026.01 YaPO 稀疏激活导向向量 MBZUAI 细粒度领域适应新范式
2026.04 Data Mixing Agent (RL驱动混合) Microsoft 首个端到端模型化数据混合策略
2026.04 GAIN 乘法调制(仅46K参数) 多机构 极轻量领域适应新方法
2026.05 TFGN 无重放无遗忘CPT架构 Ganguli 架构级抗遗忘,BWT接近于零

第三部分:方案对比

3.1 历史发展时间线

2022 ── 初始阶段:BloombergGPT 验证大规模领域预训练可行性
  │      └─ 从零预训练(最贵,但效果最好);只适用于预算充足的大机构
2023 ── PEFT 革命:AdaptLLM、FinGPT 引入 LoRA 进行成本有效的领域适应
  │      └─ LoRA 微调(性价比高);但知识注入深度有限
2024 ── C"P"T 规范化:Instruction-Pretrain、DoMIX 规范化持续预训练流程
  │      └─ 全参数 CPT(效果均衡);面临灾难性遗忘挑战
2025 ── 智能混合时代:Data Mixing Agent、GRAPE、Nemotron-CLIMB
  │      └─ RL 驱动混合 + 多目标优化(最前沿);复杂度高
2026 ── 架构级创新:TFGN、ADEPT、GAIN 从根本上解决遗忘问题
  │      └─ 选择性扩展 + 正交梯度 + 乘法调制(最新趋势)
  └── 当前状态:从"如何注入知识"转向"如何不遗忘"+"如何自动化混合"

3.2 5 种方案横向对比

方案一:全参数持续预训练(Full-parameter CPT)

维度 详情
原理 在领域语料上对所有模型参数进行完整 next-token prediction 训练
优点 ① 知识注入最深,领域性能提升最大 ② 无架构复杂度和额外设计 ③ 实现简单,标准训练流程
缺点 ① 灾难性遗忘最严重(通用能力退化可达 10-20%)② 计算成本高(全量反向传播)③ 需要维护通用数据混合
适用场景 预算充足、领域知识深度要求的场景(如医学、法律专用模型)
成本量级 ~$50-200K / 次(基于 8B 模型 + 50B tokens)

方案二:LoRA/QLoRA 参数高效微调

维度 详情
原理 冻结原始权重,在每层插入低秩适配矩阵(rank=8~64),仅更新适配器参数
优点 ① 极低成本(可消费级 GPU 运行)② 基础权重不变,几乎不遗忘 ③ 可同时训练多个领域适配器
缺点 ① 知识注入深度有限,无法学习全新推理模式 ② 领域性能提升不如全参数 ③ 低秩假设可能限制长期数据吸收
适用场景 预算有限的多领域快速适配、原型验证
成本量级 ~$1-10K / 次(基于 8B 模型 + QLoRA)

方案三:选择性参数扩展(ADEPT 类)

维度 详情
原理 评估每层对通用能力的重要性,选择性复制"最不关键"的层增加容量,再用不对称学习率解耦调优
优点 ① 仅 15% 参数被实质更新 ② 通用能力提升 5.76%、领域能力提升 5.58% ③ 训练时间减少 50%+
缺点 ① 架构复杂度高 ② 层重要性评估需额外计算 ③ 模型尺寸略微增大(扩展层)
适用场景 追求 CPT 性价比最优的场景(推荐中型团队首选)
成本量级 ~$10-50K / 次

方案四:正交梯度 / 任务无关架构(TFGN 类)

维度 详情
原理 在 Transformer 架构中增加"读/写分解"覆盖层,使不同领域的梯度更新自然正交,互不干扰
优点 ① BWT ≈ 0(几乎无遗忘)② 无需重放缓冲区、任务 ID 或正则惩罚 ③ 支持跨领域正向迁移
缺点 ① 属于较新的方法(2026.05),工程验证尚不足 ② 需要修改模型架构 ③ 前向推理增加少量开销
适用场景 对遗忘极为敏感的持续学习场景(多领域顺序学习)
成本量级 ~$30-80K / 次(需架构修改)

方案五:数据驱动混合优化(Data Mixing Agent / GRAPE 类)

维度 详情
原理 不修改模型架构或训练方法,而是用 RL / Minimax 优化领域数据的混合比例,作为 CPT 的上层策略
优点 ① 可插拔——兼容任意底层 CPT 方法 ② 泛化性强(跨领域、跨模型)③ 仅需 2.1M 参数的代理模型
缺点 ① 需要额外训练数据混合代理 ② 优化过程本身有计算成本 ③ 对领域定义敏感
适用场景 多领域、多任务的复杂数据混合场景
成本量级 ~$5-20K(代理训练)+ 底层 CPT 成本

方案六:乘法调制(GAIN 类)

维度 详情
原理 通过在 Transformer 层的 hidden states 上施加乘法缩放(而非 LoRA 的加法残差)来实现领域适应
优点 ① 极轻量(仅 46K-230K 额外参数)② 遗忘极少(7 轮顺序适应后 BoolQ 仅降 0.8%)③ 基础权重冻结
缺点 ① 2026 年最新方法,生态未成熟 ② 仅通过缩放无法学习全新知识 ③ 效果上限可能受限
适用场景 资源极度受限的快速领域适配
成本量级 ~$0.5-3K / 次

3.3 技术细节对比

维度 全参数 CPT LoRA PEFT ADEPT TFGN 数据混合优化 GAIN
领域知识注入深度 ★★★★★ ★★★☆☆ ★★★★☆ ★★★★☆ ★★★★☆ (配合底层) ★★★☆☆
通用能力保持 ★★☆☆☆ ★★★★★ ★★★★★ ★★★★★ ★★★★☆ ★★★★★
训练成本 极低 中高 中(+代理训练) 极低
实现复杂度
生态成熟度 ★★★★★ ★★★★★ ★★★☆☆ ★★☆☆☆ ★★★☆☆ ★★☆☆☆
可扩展性 ★★★☆☆ ★★★★★ ★★★★☆ ★★★★☆ ★★★★★ ★★★★★
社区活跃度 极高 低(新) 低(新)
学习曲线

3.4 选型建议

场景 推荐方案 核心理由 预估月成本*
学术研究 / 原型验证 LoRA/QLoRA + 简单的数据混合 消费级 GPU 即可运行,社区工具链成熟(PEFT/TRL) $500-2,000
中小团队垂直领域模型(医疗/法律) ADEPT 类选择性扩展 + 50%:50% 领域:通用数据混合 最优性价比,15%参数开销即可超越全参数CPT $8,000-20,000
大企业多领域持续学习平台 TFGN 类架构 + Data Mixing Agent 架构级抗遗忘 + RL驱动数据混合,实现自动化持续学习平台 $30,000-80,000
金融领域高精度模型 全参数 CPT + GRAPE 多目标优化 + 模型合并 金融领域对精度要求最高,全参数 CPT 提供最深知识注入 $50,000-150,000
资源极度受限的快速适配 GAIN 乘法调制 仅 46K 参数,可在单张 GPU 上数小时完成适配 $200-1,000
多语言持续CPT LoRA + COMPASS 语义聚类采样 轻量级语言专用适配器,支持生产环境分布漂移检测 $3,000-8,000

*基于云 GPU(H100 80GB)租赁成本估算,实际成本因数据量、迭代次数等因素而异。


第四部分:精华整合

4.1 The One 公式

持续预训练与领域适应=知识注入追求领域精通+能力保持抵抗灾难性遗忘适应刚性过度预训练模型越发"僵硬"\text{持续预训练与领域适应} = \underbrace{\text{知识注入}}_{\text{追求领域精通}} + \underbrace{\text{能力保持}}_{\text{抵抗灾难性遗忘}} - \underbrace{\text{适应刚性}}_{\text{过度预训练模型越发"僵硬"}}

4.2 一句话解释

想象一个已经学会"通用常识"的博士生,现在需要专攻"医学"——持续预训练就是让他在不忘记已有知识的前提下,阅读海量医学文献成为领域专家,而不是从头再读一遍大学。

4.3 核心架构图(简化版)

通用语料 ──┐
           ├──▶ [数据混合器] ──▶ [CPT训练引擎] ──▶ [领域专家模型]
领域语料 ──┘        ↑                          │
                    │                          ├──▶ 通用能力保持不变
               [RL代理/规则]                    └──▶ 领域能力大幅提升
               (自动优化混合比例)

4.4 STAR 总结

Situation(背景 + 痛点)

大语言模型(如 GPT-4、LLaMA-3)在通用任务上表现卓越,但在医疗诊断、法律推理、金融分析等垂直领域存在显著的知识盲区。传统的"通用模型 + 提示工程"方法无法满足专业场景对深层领域知识的严苛要求。与此同时,从零训练领域专用模型的成本高达数百万美元,绝大多数组织无法承受。

Task(核心问题)

核心问题是:如何让一个已经完成通用预训练的大模型,高效地吸收大量新领域知识,同时不遗忘其已有的通用能力?这需要在"知识注入深度"和"遗忘控制"之间找到最优平衡,并解决"适应刚性"(模型越强越难适应)这一根本性挑战。

Action(主流方案)

技术演进经历了四个阶段:(1) 全参数 CPT——效果最好但遗忘最严重;(2) LoRA 等 PEFT 方法——成本低但知识注入有限;(3) 数据混合优化(RL 驱动的 Data Mixing Agent、Minimax 优化的 GRAPE)——可插拔的上层策略;(4) 架构级创新(TFGN 的正交梯度、ADEPT 的选择性扩展、GAIN 的乘法调制)——从根本上解决遗忘问题。2025-2026 年,RL 驱动数据混合和架构级抗遗忘是最重要的两大突破方向。

Result(效果 + 建议)

当前,ADEPT 以 15% 参数开销实现全参数 CPT 的性能、TFGN 实现近乎零遗忘的持续学习。实操建议:中小团队优先选择 ADEPT 类选择性扩展方案;预算极度有限可选用 GAIN 或 LoRA;构建大规模持续学习平台应关注 TFGN + Data Mixing Agent 的组合方案。核心选型基准是"领域知识深度 vs 通用能力保持 vs 训练成本"的三角平衡。

4.5 理解确认问题

问题:如果你用 100B tokens 的法律领域语料对一个通用 LLM 做 CPT,训练后模型在法律 benchmark 上提升了 15%,但在 MMLU 通用 benchmark 上下降了 12%。请分析可能的原因,并提出至少两种缓解策略。

参考答案


附录

数据来源

本报告数据来源包括但不限于:

声明:GitHub Stars 数据为采集时的近似值,实际数量可能因时间推移而变化。成本估算基于 2026 年云 GPU 市场价格,仅供参考。

推荐后续阅读清单

  1. 入门实践:Hugging Face Alignment Handbook CPT Recipe → 链接
  2. 经典论文:AdaptLLM: Adapting Large Language Models via Reading Comprehension (ICLR 2024)
  3. 最新综述:Continual Learning of Large Language Models: A Comprehensive Survey (ACM CSUR 2025)
  4. 前沿技术:TFGN: Task-Free Replay-Free Continual Pre-Training (arXiv 2605.15053, 2026)
  5. 垂直案例:LLaMat: Family of LLMs for Materials Research (Nature MI 2026)

评论

评论加载中...