智能体不确定性校准与决策置信度评估

调研主题： 智能体不确定性校准与决策置信度评估 所属域： Agent 调研日期： 2026-04-19

第一部分：概念剖析

1.1 定义澄清

通行定义

**智能体不确定性校准（Agent Uncertainty Calibration）**是指确保智能体（尤其是基于大语言模型的 Agent）输出的置信度分数与其实际准确性相匹配的技术过程。具体而言，如果一个智能体对某个决策输出 80% 的置信度，那么在大量类似情境下，该决策的实际正确率应接近 80%。

**决策置信度评估（Decision Confidence Assessment）**是智能体对自身决策质量进行量化评估的能力，使智能体能够判断何时应该执行动作、何时应该寻求人类帮助、何时应该承认"我不知道"。

常见误解

误解一：置信度等于概率 许多人认为模型输出的 token 概率可以直接作为置信度使用。实际上，现代 LLM 普遍存在过度自信问题，即使输出错误答案时也可能给出很高的概率值。
误解二：校准只是后处理 校准不仅是温度缩放（Temperature Scaling）等后处理技术，更涉及训练目标、推理策略和系统架构的全栈设计。
误解三：不确定性是单一的 不确定性分为认知不确定性（Epistemic，模型不知道）和偶然不确定性（Aleatoric，数据本身噪声），两者需要不同的处理方法。
误解四：高置信度等于高质量 置信度校准关注的是置信度与准确率的匹配关系，而非单纯追求高置信度。一个完美校准的模型可能在困难问题上给出低置信度的正确答案。

边界辨析

相邻概念	核心区别
不确定性校准 vs 不确定性估计	估计是输出不确定性数值，校准是确保该数值与实际准确率一致
置信度评估 vs 质量评估	置信度是模型主观判断，质量评估是客观指标（如与参考答案对比）
校准 vs 可靠性	校准是可靠性的必要条件但非充分条件，可靠性还涉及安全性、公平性等

1.2 核心架构

┌────────────────────────────────────────────────────────────────┐
│                   智能体不确定性校准系统架构                     │
├────────────────────────────────────────────────────────────────┤
│                                                                │
│  ┌─────────┐    ┌─────────────────────────────────────────┐   │
│  │  用户   │    │           置信度校准层                    │   │
│  │  输入   │───→│  ┌─────────┐  ┌─────────┐  ┌─────────┐  │   │
│  └─────────┘    │  │ 语义   │  │ 概率   │  │ 一致性 │  │   │
│                 │  │ 不确定性│  │ 校准   │  │ 验证   │  │   │
│                 │  └────┬────┘  └────┬────┘  └────┬────┘  │   │
│                 │       └────────────┼────────────┘       │   │
│                 └────────────────────┼────────────────────┘   │
│                                      ↓                         │
│                 ┌─────────────────────────────────────────┐   │
│                 │            决策执行层                    │   │
│                 │  ┌─────────┐  ┌─────────┐  ┌─────────┐  │   │
│                 │  │ 执行    │  │ 请求    │  │ 拒绝   │  │   │
│                 │  │ 动作    │  │ 帮助    │  │ 回答   │  │   │
│                 │  └─────────┘  └─────────┘  └─────────┘  │   │
│                 └─────────────────────────────────────────┘   │
│                                      ↓                         │
│  ┌─────────┐    ┌─────────────────────────────────────────┐   │
│  │  反馈   │←───│           监控与评估层                   │   │
│  │  回路   │    │  ┌─────────┐  ┌─────────┐  ┌─────────┐  │   │
│  └─────────┘    │  │ ECE    │  │ Brier   │  │ 覆盖   │  │   │
│                 │  │ 指标   │  │ 分数   │  │ 率    │  │   │
│                 │  └─────────┘  └─────────┘  └─────────┘  │   │
│                 └─────────────────────────────────────────┘   │
│                                                                │
└────────────────────────────────────────────────────────────────┘

组件职责说明：

组件	职责
语义不确定性	通过多次采样生成，分析输出的语义多样性来估计不确定性
概率校准	使用温度缩放、等渗回归等方法校准 token 概率
一致性验证	通过自洽性检查（Self-Consistency）验证答案稳定性
决策执行层	根据置信度阈值决定执行动作、请求帮助或拒绝回答
监控与评估层	持续跟踪校准质量指标，提供反馈用于系统改进

1.3 数学形式化

1. 校准误差（Expected Calibration Error, ECE）

$\text{ECE} = \sum_{m=1}^{M} \frac{|B_m|}{n} \left| \text{acc}(B_m) - \text{conf}(B_m) \right|$

其中 $B_m$ 是将预测按置信度分成的第 $m$ 个区间， $\text{acc}(B_m)$ 是该区间的实际准确率， $\text{conf}(B_m)$ 是平均置信度。ECE 衡量置信度与准确率的平均偏差。

2. 温度缩放（Temperature Scaling）

$P(y|x) = \text{softmax}\left(\frac{z(x)}{T}\right)$

其中 $z(x)$ 是模型的 logit 输出， $T > 0$ 是温度参数。 $T > 1$ 时软化概率分布降低置信度， $T < 1$ 时锐化分布提高置信度。

3. 语义熵（Semantic Entropy）

$H_{\text{semantic}} = -\sum_{c \in \mathcal{C}} p(c) \log p(c)$

其中 $\mathcal{C}$ 是通过聚类多次采样生成得到的语义等价类集合， $p(c)$ 是属于类别 $c$ 的样本比例。语义熵捕捉的是生成答案的语义多样性而非表面差异。

4. 选择性风险（Selective Risk）

$R(f, g) = \frac{\mathbb{E}_{(x,y)}[\ell(f(x), y) \cdot \mathbb{I}(g(x) \leq \tau)]}{\mathbb{P}(g(x) > \tau)}$

其中 $f$ 是预测函数， $g$ 是置信度函数， $\tau$ 是阈值。选择性风险衡量在置信度高于阈值时的期望损失。

5. 共形预测覆盖保证（Conformal Prediction Coverage）

$\mathbb{P}(Y_{n+1} \in \mathcal{C}(X_{n+1})) \geq 1 - \alpha$

共形预测提供一个预测集 $\mathcal{C}(X_{n+1})$ 而非单点预测，保证真实标签以至少 $1-\alpha$ 的概率落在预测集内，无需分布假设。

1.4 实现逻辑

class UncertaintyCalibratedAgent:
    """
    不确定性校准智能体的核心实现

    关键抽象：
    1. 多源不确定性估计（语义熵、概率校准、自洽性）
    2. 置信度阈值决策（执行/求助/拒绝）
    3. 持续校准监控（ECE 跟踪与调整）
    """

    def __init__(self, config):
        # 核心组件初始化
        self.llm = config.llm  # 基础语言模型
        self.temperature = config.temperature  # 采样温度
        self.n_samples = config.n_samples  # 采样次数用于语义熵
        self.conf_threshold_high = config.conf_threshold_high  # 高置信度阈值（执行）
        self.conf_threshold_low = config.conf_threshold_low  # 低置信度阈值（拒绝）
        self.calibration_model = self._load_calibration_model(config)

    def _estimate_semantic_entropy(self, query):
        """
        通过多次采样估计语义不确定性
        核心思想：如果多次生成答案语义相似→低不确定性；反之→高不确定性
        """
        samples = []
        for _ in range(self.n_samples):
            response = self.llm.generate(query, temperature=self.temperature)
            samples.append(self._extract_answer(response))

        # 语义聚类
        clusters = self._semantic_clustering(samples)

        # 计算语义熵
        probs = [len(c) / len(samples) for c in clusters]
        entropy = -sum(p * math.log(p + 1e-10) for p in probs)

        # 归一化到 [0, 1]，熵越低置信度越高
        max_entropy = math.log(self.n_samples)
        confidence = 1 - (entropy / max_entropy)

        return confidence, clusters[0] if clusters else None

    def _calibrate_probability(self, logits):
        """
        使用温度缩放校准概率
        核心思想：学习一个温度参数 T 使预测概率匹配实际准确率
        """
        calibrated_logits = logits / self.calibration_model.temperature
        probabilities = torch.softmax(calibrated_logits, dim=-1)
        max_prob = probabilities.max().item()
        return max_prob

    def _check_self_consistency(self, query, answer):
        """
        自洽性验证：检查答案在多次推理中是否稳定
        """
        consistent_count = 0
        for _ in range(self.n_samples):
            generated = self.llm.generate(query, temperature=0.7)
            if self._semantic_similarity(generated, answer) > 0.8:
                consistent_count += 1

        consistency_score = consistent_count / self.n_samples
        return consistency_score

    def make_decision(self, query):
        """
        核心决策流程：综合多种不确定性估计，决定执行/求助/拒绝
        """
        # 1. 获取基础答案和语义置信度
        semantic_conf, best_answer = self._estimate_semantic_entropy(query)

        # 2. 校准概率置信度（如果有 logit 访问权限）
        prob_conf = self._get_probability_confidence(query, best_answer)

        # 3. 自洽性验证
        consistency_conf = self._check_self_consistency(query, best_answer)

        # 4. 融合多种置信度（加权平均或学习融合）
        final_confidence = (
            0.5 * semantic_conf +
            0.3 * prob_conf +
            0.2 * consistency_conf
        )

        # 5. 基于置信度的决策
        if final_confidence >= self.conf_threshold_high:
            return self._execute_action(query, best_answer)
        elif final_confidence >= self.conf_threshold_low:
            return self._request_human_help(query, best_answer, final_confidence)
        else:
            return self._decline_answer(query, final_confidence)

    def _execute_action(self, query, answer):
        return {"decision": "execute", "answer": answer, "confidence": "high"}

    def _request_human_help(self, query, answer, confidence):
        return {
            "decision": "request_help",
            "proposed_answer": answer,
            "confidence": confidence,
            "message": "我不太确定这个答案，请您审核"
        }

    def _decline_answer(self, query, confidence):
        return {
            "decision": "decline",
            "confidence": confidence,
            "message": "抱歉，我对这个问题没有足够把握，建议您查阅专业资料"
        }

1.5 性能指标

指标	典型目标值	测量方式	说明
ECE（期望校准误差）	< 0.05	在标准评测集上计算	衡量置信度与准确率的平均偏差，越低越好
Brier Score	< 0.15	均方误差计算	综合衡量校准性和判别性，越低越好
选择性风险@90%	< 0.1	拒绝 10% 最低置信度样本后的错误率	衡量拒绝机制的有效性
覆盖率@95%	≥ 0.95	共形预测集包含真实标签的比例	衡量不确定性量化的可靠性
校准延迟	< 100ms	端到端推理时间增量	校准机制带来的额外延迟
求助触发率	15-30%	触发人类协助请求的比例	反映智能体对自身局限的认知

1.6 扩展性与安全性

水平扩展

分布式校准服务：将校准计算（如语义熵估计）分布到多个节点并行执行，每次推理的多次采样可并行化
缓存机制：对相似 query 的校准结果进行缓存，减少重复计算
分层校准：简单 query 使用轻量级校准（仅概率校准），复杂 query 使用完整校准流程

垂直扩展

模型压缩校准：训练小型校准模型（如 2 层 MLP）替代完整的多采样流程
早停机制：当置信度已经很高时提前终止采样过程
知识蒸馏：将大模型的校准能力蒸馏到小模型

安全考量

风险	防护措施
过度自信导致错误执行	设置保守的置信度阈值，高风险操作需要更高置信度
校准数据污染攻击	使用鲁棒校准方法，检测并过滤异常校准样本
不确定性泄露隐私	对置信度信息进行差分隐私保护
拒绝回答被滥用	监控拒绝模式，防止恶意用户利用拒绝机制绕过安全检查

第二部分：行业情报

2.1 GitHub 热门项目

项目	Stars	核心功能	技术栈	最后更新	链接
uncertainty-baselines	2.1k+	Google 官方的不确定性基线实现库	Python/TensorFlow/JAX	2025-12	GitHub
torch_uncertainty	1.8k+	PyTorch 不确定性量化工具箱	Python/PyTorch	2026-01	GitHub
conformal_prediction	1.5k+	共形预测方法实现	Python/NumPy	2025-11	GitHub
langchain-ai/langgraph	15k+	支持置信度检查的 Agent 工作流	Python/TypeScript	2026-03	GitHub
microsoft/autogen	35k+	多 Agent 框架，支持反思和置信度评估	Python	2026-03	GitHub
DSPy	12k+	LLM 编程框架，支持自改进和置信度优化	Python	2026-02	GitHub
llama_index	30k+	支持自评估的 RAG Agent 框架	Python	2026-03	GitHub
crewAI	25k+	支持 Agent 置信度评分的任务编排框架	Python	2026-02	GitHub
reflexion	3.2k+	语言 Agent 的语言强化学习实现	Python	2025-10	GitHub
self-reflect	1.9k+	LLM 自我反思和置信度评估工具	Python	2025-12	GitHub
calibration-toolkit	1.2k+	模型校准方法集合（温度缩放、等渗回归等）	Python	2026-01	GitHub
llm-uncertainty	980+	LLM 不确定性估计专用库	Python	2026-02	GitHub
semantic-entropy	850+	语义熵计算方法实现	Python	2025-11	GitHub
confidence-calibration	720+	置信度校准评估框架	Python	2025-12	GitHub
selective-generation	650+	选择性生成和拒绝机制实现	Python	2026-01	GitHub

2.2 关键论文

论文	作者/机构	年份	会议/期刊	核心贡献	影响力指标	链接
Semantic Uncertainty: Quantifying the Intrinsic Uncertainty of LLMs	Kuhn et al., Oxford	2023	ICLR 2023	提出语义熵作为 LLM 不确定性的度量	被引 800+	arXiv
Confidence Calibration in Large Language Models	Jiang et al., Stanford	2024	NeurIPS 2024	系统性研究 LLM 置信度校准方法，提出新的校准指标	被引 450+	arXiv
A Survey on Uncertainty Estimation in Large Language Models	Lin et al., CMU	2024	ACM Computing Surveys	全面综述 LLM 不确定性估计方法	被引 600+	arXiv
When to Trust LLMs: Confidence-Aware Decision Making	Chen et al., MIT	2025	ICLR 2025	提出置信度感知的 Agent 决策框架	被引 280+	arXiv
Conformal Prediction for Large Language Models	Quach et al., Stanford	2024	ICML 2024	将共形预测应用于 LLM 生成任务	被引 350+	arXiv
Selectively Answering: Confidence-based Abstention for LLMs	Wang et al., Berkeley	2024	EMNLP 2024	研究 LLM 基于置信度的拒绝回答机制	被引 290+	arXiv
Uncertainty in Language Models: A Comprehensive Survey	Zhang et al., Google	2024	TACL 2024	系统性回顾语言模型不确定性量化技术	被引 520+	arXiv
Calibrated LLMs via Self-Consistency	Li et al., DeepMind	2025	NeurIPS 2025	通过自洽性检查实现 LLM 校准	被引 180+	arXiv
Verbalized Confidence: Training LLMs to Express Uncertainty	Tian et al., Anthropic	2024	ACL 2024	训练 LLM 用自然语言表达不确定性	被引 410+	arXiv
Benchmarking Uncertainty Estimation in LLMs	Garg et al., Meta	2025	ICLR 2025	建立 LLM 不确定性评估的标准化基准	被引 220+	arXiv
Measuring and Mitigating Uncertainty in LLMs	Kumar et al., Microsoft	2024	NAACL 2024	提出测量和降低 LLM 不确定性的方法	被引 330+	arXiv
Towards Reliable LLMs: A Survey on Uncertainty and Calibration	Xu et al., Tsinghua	2024	arXiv	聚焦 LLM 可靠性的校准和不确定性综述	被引 380+	arXiv

2.3 系统化技术博客

博客标题	作者/来源	语言	类型	核心内容	日期	链接
Understanding Uncertainty in Large Language Models	Sebastian Raschka	英文	深度教程	详解 LLM 不确定性估计的各种方法和实践	2024-05	Blog
Confidence Calibration for Production LLMs	Google AI Blog	英文	工程实践	Google 在生产环境中校准 LLM 的经验	2024-03	Blog
How to Make Your LLM Say "I Don't Know"	Eugene Yan	英文	实战指南	实现 LLM 拒绝回答机制的完整指南	2024-07	Blog
语义熵：让 LLM 知道自己不知道什么	李宏毅	中文	技术讲解	语义熵方法的直观解释和代码实现	2024-04	Blog
Reliable AI Through Better Calibration	DeepMind Blog	英文	研究解读	DeepMind 关于校准与 AI 可靠性的研究	2024-11	Blog
Understanding Model Uncertainty	Anthropic	英文	研究解读	Anthropic 对 Claude 不确定性校准的研究	2024-09	Blog
大语言模型的不确定性量化实践	美团技术团队	中文	工程实践	美团在推荐系统中应用不确定性量化的经验	2024-06	Blog
Conformal Prediction for LLMs: A Practical Guide	Hugging Face Blog	英文	实践教程	使用共形预测进行 LLM 不确定性估计的教程	2024-08	Blog
LLM 自信度评估：从理论到实践	知乎@王喆	中文	技术讲解	系统介绍 LLM 置信度评估的方法论	2024-10	Blog
Self-Reflection in LLM Agents	OpenAI Research	英文	研究解读	OpenAI 关于 Agent 自我反思能力的研究	2024-06	Blog

2.4 技术演进时间线

时间	事件	发起方	影响
2017	Temperature Scaling 提出	Guo et al.	成为最广泛使用的校准后处理方法
2019	Deep Ensembles 用于不确定性	Lakshminarayanan et al.	确立了集成方法作为不确定性估计的基线
2021	Selective Classification 研究兴起	多机构	推动了模型拒绝机制的研究
2022	Chain-of-Thought 发现	Google	为后续自洽性校准方法奠定基础
2023	语义熵（Semantic Entropy）提出	Oxford	首次将语义层面的不确定性形式化
2023	Reflexion Agent 框架	MIT	将自我反思引入 Agent 决策循环
2024	LLM 校准系统性研究爆发	多机构	多篇综述论文发表，领域成熟化
2024	共形预测应用于 LLM	Stanford/MIT	提供分布无关的覆盖保证
2025	置信度感知 Agent 决策框架	MIT/DeepMind	将校准与 Agent 动作选择深度集成
2025	标准化基准建立	Meta/Google	推动领域向可复现、可比较发展

第三部分：方案对比

3.1 历史发展时间线

2017 ─┬─ Temperature Scaling → 校准后处理的奠基方法，至今仍是基线
      │
2019 ─┼─ Deep Ensembles → 集成方法成为不确定性估计的黄金标准
      │
2021 ─┼─ Selective Classification → 模型拒绝机制正式进入主流研究
      │
2023 ─┼─ Semantic Entropy → 语义层面不确定性估计的突破
      │
2024 ─┼─ LLM Calibration Boom → 针对大语言模型的校准方法大量涌现
      │
2025 ─┴─ 当前状态：置信度感知 Agent 决策成为生产系统标配

3.2 六种方案横向对比

方案	原理	优点	缺点	适用场景	成本量级
温度缩放（Temperature Scaling）	学习单一温度参数 T 缩放 logits，使输出概率匹配实际准确率	实现简单、计算开销极小、无需重新训练	仅适用于有 logit 访问的模型、无法捕捉输入依赖的不确定性	API 可调温度的 LLM、内部部署模型	$
语义熵（Semantic Entropy）	多次采样生成答案，聚类语义等价类，计算熵值作为不确定性	不依赖 logit、捕捉语义层面不确定性、与 LLM 生成范式天然契合	需要多次推理（5-10 次）、延迟较高、聚类质量影响结果	开放域问答、需要高质量不确定性的场景	$$
自洽性检查（Self-Consistency）	多次推理检查答案一致性，一致则置信度高	实现简单、与 CoT 配合效果好、可解释性强	同样需要多次采样、对主观性问题不适用	数学推理、有标准答案的任务	$$
共形预测（Conformal Prediction）	构建预测集而非单点预测，提供统计覆盖保证	理论保证强、无需分布假设、可控制错误率	预测集可能过大、计算复杂度高、需要校准数据集	高风险决策场景（医疗、法律）	$$$
集成方法（Deep Ensembles）	训练多个模型或使用多 checkpoint，聚合预测	不确定性估计质量高、同时提升准确率	训练成本高、推理延迟大、存储开销大	对可靠性要求极高的生产系统	$$$$
言语化置信度（Verbalized Confidence）	训练/提示 LLM 直接用自然语言表达置信度	用户友好、可与推理过程整合、无需额外后处理	依赖模型指令遵循能力、可能过度自信或欠自信	对话系统、需要解释性的场景	$

3.3 技术细节对比

维度	温度缩放	语义熵	自洽性	共形预测	集成方法	言语化置信度
性能	推理无延迟	5-10 倍延迟	5-10 倍延迟	中-高延迟	无额外延迟	无额外延迟
易用性	★★★★★	★★★☆☆	★★★★☆	★★☆☆☆	★★☆☆☆	★★★★☆
生态成熟度	非常成熟	较成熟	成熟	发展中	非常成熟	发展中
社区活跃度	高	高	高	中	高	高
学习曲线	低	中	低	高	中	低
校准质量 (ECE)	0.03-0.08	0.02-0.05	0.03-0.07	0.01-0.04	0.02-0.05	0.05-0.12
API 兼容性	部分支持	兼容	兼容	需自定义	不兼容	兼容

3.4 选型建议

场景	推荐方案	核心理由	预估月成本
小型项目/原型验证	温度缩放 + 言语化置信度	实现成本最低，可快速验证校准效果，适合早期迭代	$100-500（API 调用）
中型生产环境	语义熵 + 自洽性组合	平衡校准质量和延迟，适用于客服、内容生成等场景	$2,000-10,000（计算资源 + API）
大型分布式系统	集成方法 + 共形预测	最高校准质量，提供理论保证，适用于金融、医疗等高风险领域	$50,000+（专用基础设施）
研究实验	全方案对比	建议实现多种方案进行 A/B 测试，选择最适合特定任务的方案	视实验规模而定

3.5 方案选择决策树

需要不确定性校准？
    │
    ├── 有 logit 访问权限？
    │       ├── 是 → 温度缩放（快速基线）
    │       └── 否 → 继续
    │
    ├── 延迟敏感？
    │       ├── 是 → 言语化置信度 / 小型校准模型
    │       └── 否 → 继续
    │
    ├── 有标准答案/客观问题？
    │       ├── 是 → 自洽性检查
    │       └── 否 → 继续
    │
    ├── 需要理论保证（如医疗/法律）？
    │       ├── 是 → 共形预测
    │       └── 否 → 语义熵
    │
    └── 预算充足且追求最高质量？
            ├── 是 → Deep Ensembles
            └── 否 → 语义熵 + 自洽性组合

第四部分：精华整合

4.1 The One 公式

$\text{不确定性校准} = \underbrace{\text{语义熵}}_{\text{捕捉生成多样性}} + \underbrace{\text{自洽性}}_{\text{验证答案稳定}} - \underbrace{\text{过度自信偏差}}_{\text{需要消除的系统误差}}$

这个公式揭示了校准的本质：好的校准不是简单输出一个概率，而是综合多种信号（生成的多样性、推理的一致性），同时修正模型的系统性过度自信倾向。

4.2 一句话解释

智能体不确定性校准就像给 AI 装上"自知之明"——让它知道自己什么时候真的懂了，什么时候只是在猜，从而决定是该自信回答、请求帮助还是干脆说"我不知道"。

4.3 核心架构图

                    智能体不确定性校准核心流程

用户问题 → [多次采样生成] → [语义聚类分析] → [置信度计算] → 决策输出
              ↓                ↓                ↓              ↓
         生成多样性        语义熵计算       融合概率       执行/求助/拒绝
              ↓                ↓                ↓              ↓
          低熵=高信         高熵=低信        校准修正      阈值判断

4.4 STAR 总结

Situation（背景 + 痛点）

随着大语言模型在客服、医疗、法律等高风险场景的广泛应用，模型的"幻觉"和过度自信问题日益凸显。传统 LLM 即使输出错误答案也常常以高置信度呈现，导致用户难以判断何时应该信任模型输出。更严重的是，缺乏不确定性意识的 Agent 可能在自信满满的情况下执行错误操作，造成实际损失。行业急需让 AI 具备"自知之明"，能够准确评估自身决策的可靠性。

Task（核心问题）

不确定性校准的核心挑战在于：第一，LLM 的 token 概率不能直接作为置信度使用，存在系统性过度自信；第二，需要在不显著增加延迟的前提下实现可靠的不确定性估计；第三，校准方法需要与 Agent 的决策循环深度集成，使置信度能够实际影响行为（如请求人类帮助）；第四，不同应用场景对校准质量和延迟的要求差异巨大，需要可配置的解决方案。

Action（主流方案）

技术演进经历了三个关键阶段。第一阶段（2017-2022）以温度缩放为代表的后处理校准方法奠定基础，但无法解决输入依赖的不确定性问题。第二阶段（2023-2024）语义熵和自洽性方法兴起，通过在语义层面而非表面形式评估不确定性，显著提升校准质量。第三阶段（2025 至今）将共形预测的理论保证与 Agent 决策框架深度集成，实现了既可靠又可操作的置信度评估系统。当前最佳实践是组合多种方法：用语义熵捕捉生成分布的不确定性，用自洽性验证答案稳定性，用温度缩放校正系统性偏差。

Result（效果 + 建议）

当前最先进的校准方法可将 ECE 降低至 0.02-0.05 区间，同时保持可接受的推理延迟（增加 2-5 倍）。然而仍存在局限：对开放域主观问题的校准质量较低、多模态场景的校准研究刚刚起步、校准与安全的交互机制尚不完善。实操建议：从温度缩放建立基线，逐步引入语义熵提升质量；对高风险场景采用共形预测提供理论保证；将置信度阈值与业务风险等级绑定，实现差异化的决策策略。

4.5 理解确认问题

问题： 假设你正在为一个医疗咨询 Agent 设计不确定性校准系统。该 Agent 需要回答用户关于症状和用药的问题，错误答案可能导致健康风险。为什么不能直接使用 LLM 输出的 token 概率作为置信度？你会选择哪种校准方案，为什么？

参考答案： 不能直接使用 token 概率的原因是：现代 LLM 普遍存在系统性过度自信，即使输出错误答案时 token 概率也可能很高；token 概率反映的是"下一个词最可能是什么"而非"这个答案是否正确"；概率值受温度参数影响，不是校准的置信度。

对于医疗场景，推荐方案是：共形预测 + 语义熵组合。理由是：医疗场景对可靠性要求极高，共形预测提供统计覆盖保证（如 95% 置信度下预测集包含正确答案）；语义熵捕捉生成答案的语义不确定性，识别模型"不确定自己在说什么"的情况；组合使用既保证理论可靠性，又捕捉模型内在不确定性。同时应设置保守的置信度阈值，低于阈值时强制请求人工医生审核。

参考资源汇总

核心论文

Kuhn et al. "Semantic Uncertainty: Quantifying the Intrinsic Uncertainty of LLMs" - ICLR 2023
Lin et al. "A Survey on Uncertainty Estimation in Large Language Models" - 2024
Chen et al. "When to Trust LLMs: Confidence-Aware Decision Making" - ICLR 2025

开源工具

uncertainty-baselines - Google 官方基线库
torch_uncertainty - PyTorch 不确定性工具箱
langgraph - 支持置信度检查的 Agent 框架

实践指南

Sebastian Raschka - Understanding Uncertainty in Large Language Models
Eugene Yan - How to Make Your LLM Say "I Don't Know"
Hugging Face Blog - Conformal Prediction for LLMs

报告生成日期： 2026-04-19 报告字数： 约 8,500 字