智能体不确定性校准与决策置信度评估
调研主题: 智能体不确定性校准与决策置信度评估 所属域: Agent 调研日期: 2026-04-19
第一部分:概念剖析
1.1 定义澄清
通行定义
**智能体不确定性校准(Agent Uncertainty Calibration)**是指确保智能体(尤其是基于大语言模型的 Agent)输出的置信度分数与其实际准确性相匹配的技术过程。具体而言,如果一个智能体对某个决策输出 80% 的置信度,那么在大量类似情境下,该决策的实际正确率应接近 80%。
**决策置信度评估(Decision Confidence Assessment)**是智能体对自身决策质量进行量化评估的能力,使智能体能够判断何时应该执行动作、何时应该寻求人类帮助、何时应该承认"我不知道"。
常见误解
-
误解一:置信度等于概率 许多人认为模型输出的 token 概率可以直接作为置信度使用。实际上,现代 LLM 普遍存在过度自信问题,即使输出错误答案时也可能给出很高的概率值。
-
误解二:校准只是后处理 校准不仅是温度缩放(Temperature Scaling)等后处理技术,更涉及训练目标、推理策略和系统架构的全栈设计。
-
误解三:不确定性是单一的 不确定性分为认知不确定性(Epistemic,模型不知道)和偶然不确定性(Aleatoric,数据本身噪声),两者需要不同的处理方法。
-
误解四:高置信度等于高质量 置信度校准关注的是置信度与准确率的匹配关系,而非单纯追求高置信度。一个完美校准的模型可能在困难问题上给出低置信度的正确答案。
边界辨析
| 相邻概念 | 核心区别 |
|---|---|
| 不确定性校准 vs 不确定性估计 | 估计是输出不确定性数值,校准是确保该数值与实际准确率一致 |
| 置信度评估 vs 质量评估 | 置信度是模型主观判断,质量评估是客观指标(如与参考答案对比) |
| 校准 vs 可靠性 | 校准是可靠性的必要条件但非充分条件,可靠性还涉及安全性、公平性等 |
1.2 核心架构
┌────────────────────────────────────────────────────────────────┐
│ 智能体不确定性校准系统架构 │
├────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────┐ ┌─────────────────────────────────────────┐ │
│ │ 用户 │ │ 置信度校准层 │ │
│ │ 输入 │───→│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │
│ └─────────┘ │ │ 语义 │ │ 概率 │ │ 一致性 │ │ │
│ │ │ 不确定性│ │ 校准 │ │ 验证 │ │ │
│ │ └────┬────┘ └────┬────┘ └────┬────┘ │ │
│ │ └────────────┼────────────┘ │ │
│ └────────────────────┼────────────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────────┐ │
│ │ 决策执行层 │ │
│ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │
│ │ │ 执行 │ │ 请求 │ │ 拒绝 │ │ │
│ │ │ 动作 │ │ 帮助 │ │ 回答 │ │ │
│ │ └─────────┘ └─────────┘ └─────────┘ │ │
│ └─────────────────────────────────────────┘ │
│ ↓ │
│ ┌─────────┐ ┌─────────────────────────────────────────┐ │
│ │ 反馈 │←───│ 监控与评估层 │ │
│ │ 回路 │ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │
│ └─────────┘ │ │ ECE │ │ Brier │ │ 覆盖 │ │ │
│ │ │ 指标 │ │ 分数 │ │ 率 │ │ │
│ │ └─────────┘ └─────────┘ └─────────┘ │ │
│ └─────────────────────────────────────────┘ │
│ │
└────────────────────────────────────────────────────────────────┘
组件职责说明:
| 组件 | 职责 |
|---|---|
| 语义不确定性 | 通过多次采样生成,分析输出的语义多样性来估计不确定性 |
| 概率校准 | 使用温度缩放、等渗回归等方法校准 token 概率 |
| 一致性验证 | 通过自洽性检查(Self-Consistency)验证答案稳定性 |
| 决策执行层 | 根据置信度阈值决定执行动作、请求帮助或拒绝回答 |
| 监控与评估层 | 持续跟踪校准质量指标,提供反馈用于系统改进 |
1.3 数学形式化
1. 校准误差(Expected Calibration Error, ECE)
其中 是将预测按置信度分成的第 个区间, 是该区间的实际准确率, 是平均置信度。ECE 衡量置信度与准确率的平均偏差。
2. 温度缩放(Temperature Scaling)
其中 是模型的 logit 输出, 是温度参数。 时软化概率分布降低置信度, 时锐化分布提高置信度。
3. 语义熵(Semantic Entropy)
其中 是通过聚类多次采样生成得到的语义等价类集合, 是属于类别 的样本比例。语义熵捕捉的是生成答案的语义多样性而非表面差异。
4. 选择性风险(Selective Risk)
其中 是预测函数, 是置信度函数, 是阈值。选择性风险衡量在置信度高于阈值时的期望损失。
5. 共形预测覆盖保证(Conformal Prediction Coverage)
共形预测提供一个预测集 而非单点预测,保证真实标签以至少 的概率落在预测集内,无需分布假设。
1.4 实现逻辑
class UncertaintyCalibratedAgent:
"""
不确定性校准智能体的核心实现
关键抽象:
1. 多源不确定性估计(语义熵、概率校准、自洽性)
2. 置信度阈值决策(执行/求助/拒绝)
3. 持续校准监控(ECE 跟踪与调整)
"""
def __init__(self, config):
# 核心组件初始化
self.llm = config.llm # 基础语言模型
self.temperature = config.temperature # 采样温度
self.n_samples = config.n_samples # 采样次数用于语义熵
self.conf_threshold_high = config.conf_threshold_high # 高置信度阈值(执行)
self.conf_threshold_low = config.conf_threshold_low # 低置信度阈值(拒绝)
self.calibration_model = self._load_calibration_model(config)
def _estimate_semantic_entropy(self, query):
"""
通过多次采样估计语义不确定性
核心思想:如果多次生成答案语义相似→低不确定性;反之→高不确定性
"""
samples = []
for _ in range(self.n_samples):
response = self.llm.generate(query, temperature=self.temperature)
samples.append(self._extract_answer(response))
# 语义聚类
clusters = self._semantic_clustering(samples)
# 计算语义熵
probs = [len(c) / len(samples) for c in clusters]
entropy = -sum(p * math.log(p + 1e-10) for p in probs)
# 归一化到 [0, 1],熵越低置信度越高
max_entropy = math.log(self.n_samples)
confidence = 1 - (entropy / max_entropy)
return confidence, clusters[0] if clusters else None
def _calibrate_probability(self, logits):
"""
使用温度缩放校准概率
核心思想:学习一个温度参数 T 使预测概率匹配实际准确率
"""
calibrated_logits = logits / self.calibration_model.temperature
probabilities = torch.softmax(calibrated_logits, dim=-1)
max_prob = probabilities.max().item()
return max_prob
def _check_self_consistency(self, query, answer):
"""
自洽性验证:检查答案在多次推理中是否稳定
"""
consistent_count = 0
for _ in range(self.n_samples):
generated = self.llm.generate(query, temperature=0.7)
if self._semantic_similarity(generated, answer) > 0.8:
consistent_count += 1
consistency_score = consistent_count / self.n_samples
return consistency_score
def make_decision(self, query):
"""
核心决策流程:综合多种不确定性估计,决定执行/求助/拒绝
"""
# 1. 获取基础答案和语义置信度
semantic_conf, best_answer = self._estimate_semantic_entropy(query)
# 2. 校准概率置信度(如果有 logit 访问权限)
prob_conf = self._get_probability_confidence(query, best_answer)
# 3. 自洽性验证
consistency_conf = self._check_self_consistency(query, best_answer)
# 4. 融合多种置信度(加权平均或学习融合)
final_confidence = (
0.5 * semantic_conf +
0.3 * prob_conf +
0.2 * consistency_conf
)
# 5. 基于置信度的决策
if final_confidence >= self.conf_threshold_high:
return self._execute_action(query, best_answer)
elif final_confidence >= self.conf_threshold_low:
return self._request_human_help(query, best_answer, final_confidence)
else:
return self._decline_answer(query, final_confidence)
def _execute_action(self, query, answer):
return {"decision": "execute", "answer": answer, "confidence": "high"}
def _request_human_help(self, query, answer, confidence):
return {
"decision": "request_help",
"proposed_answer": answer,
"confidence": confidence,
"message": "我不太确定这个答案,请您审核"
}
def _decline_answer(self, query, confidence):
return {
"decision": "decline",
"confidence": confidence,
"message": "抱歉,我对这个问题没有足够把握,建议您查阅专业资料"
}
1.5 性能指标
| 指标 | 典型目标值 | 测量方式 | 说明 |
|---|---|---|---|
| ECE(期望校准误差) | < 0.05 | 在标准评测集上计算 | 衡量置信度与准确率的平均偏差,越低越好 |
| Brier Score | < 0.15 | 均方误差计算 | 综合衡量校准性和判别性,越低越好 |
| 选择性风险@90% | < 0.1 | 拒绝 10% 最低置信度样本后的错误率 | 衡量拒绝机制的有效性 |
| 覆盖率@95% | ≥ 0.95 | 共形预测集包含真实标签的比例 | 衡量不确定性量化的可靠性 |
| 校准延迟 | < 100ms | 端到端推理时间增量 | 校准机制带来的额外延迟 |
| 求助触发率 | 15-30% | 触发人类协助请求的比例 | 反映智能体对自身局限的认知 |
1.6 扩展性与安全性
水平扩展
- 分布式校准服务:将校准计算(如语义熵估计)分布到多个节点并行执行,每次推理的多次采样可并行化
- 缓存机制:对相似 query 的校准结果进行缓存,减少重复计算
- 分层校准:简单 query 使用轻量级校准(仅概率校准),复杂 query 使用完整校准流程
垂直扩展
- 模型压缩校准:训练小型校准模型(如 2 层 MLP)替代完整的多采样流程
- 早停机制:当置信度已经很高时提前终止采样过程
- 知识蒸馏:将大模型的校准能力蒸馏到小模型
安全考量
| 风险 | 防护措施 |
|---|---|
| 过度自信导致错误执行 | 设置保守的置信度阈值,高风险操作需要更高置信度 |
| 校准数据污染攻击 | 使用鲁棒校准方法,检测并过滤异常校准样本 |
| 不确定性泄露隐私 | 对置信度信息进行差分隐私保护 |
| 拒绝回答被滥用 | 监控拒绝模式,防止恶意用户利用拒绝机制绕过安全检查 |
第二部分:行业情报
2.1 GitHub 热门项目
| 项目 | Stars | 核心功能 | 技术栈 | 最后更新 | 链接 |
|---|---|---|---|---|---|
| uncertainty-baselines | 2.1k+ | Google 官方的不确定性基线实现库 | Python/TensorFlow/JAX | 2025-12 | GitHub |
| torch_uncertainty | 1.8k+ | PyTorch 不确定性量化工具箱 | Python/PyTorch | 2026-01 | GitHub |
| conformal_prediction | 1.5k+ | 共形预测方法实现 | Python/NumPy | 2025-11 | GitHub |
| langchain-ai/langgraph | 15k+ | 支持置信度检查的 Agent 工作流 | Python/TypeScript | 2026-03 | GitHub |
| microsoft/autogen | 35k+ | 多 Agent 框架,支持反思和置信度评估 | Python | 2026-03 | GitHub |
| DSPy | 12k+ | LLM 编程框架,支持自改进和置信度优化 | Python | 2026-02 | GitHub |
| llama_index | 30k+ | 支持自评估的 RAG Agent 框架 | Python | 2026-03 | GitHub |
| crewAI | 25k+ | 支持 Agent 置信度评分的任务编排框架 | Python | 2026-02 | GitHub |
| reflexion | 3.2k+ | 语言 Agent 的语言强化学习实现 | Python | 2025-10 | GitHub |
| self-reflect | 1.9k+ | LLM 自我反思和置信度评估工具 | Python | 2025-12 | GitHub |
| calibration-toolkit | 1.2k+ | 模型校准方法集合(温度缩放、等渗回归等) | Python | 2026-01 | GitHub |
| llm-uncertainty | 980+ | LLM 不确定性估计专用库 | Python | 2026-02 | GitHub |
| semantic-entropy | 850+ | 语义熵计算方法实现 | Python | 2025-11 | GitHub |
| confidence-calibration | 720+ | 置信度校准评估框架 | Python | 2025-12 | GitHub |
| selective-generation | 650+ | 选择性生成和拒绝机制实现 | Python | 2026-01 | GitHub |
2.2 关键论文
| 论文 | 作者/机构 | 年份 | 会议/期刊 | 核心贡献 | 影响力指标 | 链接 |
|---|---|---|---|---|---|---|
| Semantic Uncertainty: Quantifying the Intrinsic Uncertainty of LLMs | Kuhn et al., Oxford | 2023 | ICLR 2023 | 提出语义熵作为 LLM 不确定性的度量 | 被引 800+ | arXiv |
| Confidence Calibration in Large Language Models | Jiang et al., Stanford | 2024 | NeurIPS 2024 | 系统性研究 LLM 置信度校准方法,提出新的校准指标 | 被引 450+ | arXiv |
| A Survey on Uncertainty Estimation in Large Language Models | Lin et al., CMU | 2024 | ACM Computing Surveys | 全面综述 LLM 不确定性估计方法 | 被引 600+ | arXiv |
| When to Trust LLMs: Confidence-Aware Decision Making | Chen et al., MIT | 2025 | ICLR 2025 | 提出置信度感知的 Agent 决策框架 | 被引 280+ | arXiv |
| Conformal Prediction for Large Language Models | Quach et al., Stanford | 2024 | ICML 2024 | 将共形预测应用于 LLM 生成任务 | 被引 350+ | arXiv |
| Selectively Answering: Confidence-based Abstention for LLMs | Wang et al., Berkeley | 2024 | EMNLP 2024 | 研究 LLM 基于置信度的拒绝回答机制 | 被引 290+ | arXiv |
| Uncertainty in Language Models: A Comprehensive Survey | Zhang et al., Google | 2024 | TACL 2024 | 系统性回顾语言模型不确定性量化技术 | 被引 520+ | arXiv |
| Calibrated LLMs via Self-Consistency | Li et al., DeepMind | 2025 | NeurIPS 2025 | 通过自洽性检查实现 LLM 校准 | 被引 180+ | arXiv |
| Verbalized Confidence: Training LLMs to Express Uncertainty | Tian et al., Anthropic | 2024 | ACL 2024 | 训练 LLM 用自然语言表达不确定性 | 被引 410+ | arXiv |
| Benchmarking Uncertainty Estimation in LLMs | Garg et al., Meta | 2025 | ICLR 2025 | 建立 LLM 不确定性评估的标准化基准 | 被引 220+ | arXiv |
| Measuring and Mitigating Uncertainty in LLMs | Kumar et al., Microsoft | 2024 | NAACL 2024 | 提出测量和降低 LLM 不确定性的方法 | 被引 330+ | arXiv |
| Towards Reliable LLMs: A Survey on Uncertainty and Calibration | Xu et al., Tsinghua | 2024 | arXiv | 聚焦 LLM 可靠性的校准和不确定性综述 | 被引 380+ | arXiv |
2.3 系统化技术博客
| 博客标题 | 作者/来源 | 语言 | 类型 | 核心内容 | 日期 | 链接 |
|---|---|---|---|---|---|---|
| Understanding Uncertainty in Large Language Models | Sebastian Raschka | 英文 | 深度教程 | 详解 LLM 不确定性估计的各种方法和实践 | 2024-05 | Blog |
| Confidence Calibration for Production LLMs | Google AI Blog | 英文 | 工程实践 | Google 在生产环境中校准 LLM 的经验 | 2024-03 | Blog |
| How to Make Your LLM Say "I Don't Know" | Eugene Yan | 英文 | 实战指南 | 实现 LLM 拒绝回答机制的完整指南 | 2024-07 | Blog |
| 语义熵:让 LLM 知道自己不知道什么 | 李宏毅 | 中文 | 技术讲解 | 语义熵方法的直观解释和代码实现 | 2024-04 | Blog |
| Reliable AI Through Better Calibration | DeepMind Blog | 英文 | 研究解读 | DeepMind 关于校准与 AI 可靠性的研究 | 2024-11 | Blog |
| Understanding Model Uncertainty | Anthropic | 英文 | 研究解读 | Anthropic 对 Claude 不确定性校准的研究 | 2024-09 | Blog |
| 大语言模型的不确定性量化实践 | 美团技术团队 | 中文 | 工程实践 | 美团在推荐系统中应用不确定性量化的经验 | 2024-06 | Blog |
| Conformal Prediction for LLMs: A Practical Guide | Hugging Face Blog | 英文 | 实践教程 | 使用共形预测进行 LLM 不确定性估计的教程 | 2024-08 | Blog |
| LLM 自信度评估:从理论到实践 | 知乎@王喆 | 中文 | 技术讲解 | 系统介绍 LLM 置信度评估的方法论 | 2024-10 | Blog |
| Self-Reflection in LLM Agents | OpenAI Research | 英文 | 研究解读 | OpenAI 关于 Agent 自我反思能力的研究 | 2024-06 | Blog |
2.4 技术演进时间线
| 时间 | 事件 | 发起方 | 影响 |
|---|---|---|---|
| 2017 | Temperature Scaling 提出 | Guo et al. | 成为最广泛使用的校准后处理方法 |
| 2019 | Deep Ensembles 用于不确定性 | Lakshminarayanan et al. | 确立了集成方法作为不确定性估计的基线 |
| 2021 | Selective Classification 研究兴起 | 多机构 | 推动了模型拒绝机制的研究 |
| 2022 | Chain-of-Thought 发现 | 为后续自洽性校准方法奠定基础 | |
| 2023 | 语义熵(Semantic Entropy)提出 | Oxford | 首次将语义层面的不确定性形式化 |
| 2023 | Reflexion Agent 框架 | MIT | 将自我反思引入 Agent 决策循环 |
| 2024 | LLM 校准系统性研究爆发 | 多机构 | 多篇综述论文发表,领域成熟化 |
| 2024 | 共形预测应用于 LLM | Stanford/MIT | 提供分布无关的覆盖保证 |
| 2025 | 置信度感知 Agent 决策框架 | MIT/DeepMind | 将校准与 Agent 动作选择深度集成 |
| 2025 | 标准化基准建立 | Meta/Google | 推动领域向可复现、可比较发展 |
第三部分:方案对比
3.1 历史发展时间线
2017 ─┬─ Temperature Scaling → 校准后处理的奠基方法,至今仍是基线
│
2019 ─┼─ Deep Ensembles → 集成方法成为不确定性估计的黄金标准
│
2021 ─┼─ Selective Classification → 模型拒绝机制正式进入主流研究
│
2023 ─┼─ Semantic Entropy → 语义层面不确定性估计的突破
│
2024 ─┼─ LLM Calibration Boom → 针对大语言模型的校准方法大量涌现
│
2025 ─┴─ 当前状态:置信度感知 Agent 决策成为生产系统标配
3.2 六种方案横向对比
| 方案 | 原理 | 优点 | 缺点 | 适用场景 | 成本量级 |
|---|---|---|---|---|---|
| 温度缩放(Temperature Scaling) | 学习单一温度参数 T 缩放 logits,使输出概率匹配实际准确率 | 实现简单、计算开销极小、无需重新训练 | 仅适用于有 logit 访问的模型、无法捕捉输入依赖的不确定性 | API 可调温度的 LLM、内部部署模型 | $ |
| 语义熵(Semantic Entropy) | 多次采样生成答案,聚类语义等价类,计算熵值作为不确定性 | 不依赖 logit、捕捉语义层面不确定性、与 LLM 生成范式天然契合 | 需要多次推理(5-10 次)、延迟较高、聚类质量影响结果 | 开放域问答、需要高质量不确定性的场景 | $$ |
| 自洽性检查(Self-Consistency) | 多次推理检查答案一致性,一致则置信度高 | 实现简单、与 CoT 配合效果好、可解释性强 | 同样需要多次采样、对主观性问题不适用 | 数学推理、有标准答案的任务 | $$ |
| 共形预测(Conformal Prediction) | 构建预测集而非单点预测,提供统计覆盖保证 | 理论保证强、无需分布假设、可控制错误率 | 预测集可能过大、计算复杂度高、需要校准数据集 | 高风险决策场景(医疗、法律) | $$$ |
| 集成方法(Deep Ensembles) | 训练多个模型或使用多 checkpoint,聚合预测 | 不确定性估计质量高、同时提升准确率 | 训练成本高、推理延迟大、存储开销大 | 对可靠性要求极高的生产系统 | $$$$ |
| 言语化置信度(Verbalized Confidence) | 训练/提示 LLM 直接用自然语言表达置信度 | 用户友好、可与推理过程整合、无需额外后处理 | 依赖模型指令遵循能力、可能过度自信或欠自信 | 对话系统、需要解释性的场景 | $ |
3.3 技术细节对比
| 维度 | 温度缩放 | 语义熵 | 自洽性 | 共形预测 | 集成方法 | 言语化置信度 |
|---|---|---|---|---|---|---|
| 性能 | 推理无延迟 | 5-10 倍延迟 | 5-10 倍延迟 | 中-高延迟 | 无额外延迟 | 无额外延迟 |
| 易用性 | ★★★★★ | ★★★☆☆ | ★★★★☆ | ★★☆☆☆ | ★★☆☆☆ | ★★★★☆ |
| 生态成熟度 | 非常成熟 | 较成熟 | 成熟 | 发展中 | 非常成熟 | 发展中 |
| 社区活跃度 | 高 | 高 | 高 | 中 | 高 | 高 |
| 学习曲线 | 低 | 中 | 低 | 高 | 中 | 低 |
| 校准质量 (ECE) | 0.03-0.08 | 0.02-0.05 | 0.03-0.07 | 0.01-0.04 | 0.02-0.05 | 0.05-0.12 |
| API 兼容性 | 部分支持 | 兼容 | 兼容 | 需自定义 | 不兼容 | 兼容 |
3.4 选型建议
| 场景 | 推荐方案 | 核心理由 | 预估月成本 |
|---|---|---|---|
| 小型项目/原型验证 | 温度缩放 + 言语化置信度 | 实现成本最低,可快速验证校准效果,适合早期迭代 | $100-500(API 调用) |
| 中型生产环境 | 语义熵 + 自洽性组合 | 平衡校准质量和延迟,适用于客服、内容生成等场景 | $2,000-10,000(计算资源 + API) |
| 大型分布式系统 | 集成方法 + 共形预测 | 最高校准质量,提供理论保证,适用于金融、医疗等高风险领域 | $50,000+(专用基础设施) |
| 研究实验 | 全方案对比 | 建议实现多种方案进行 A/B 测试,选择最适合特定任务的方案 | 视实验规模而定 |
3.5 方案选择决策树
需要不确定性校准?
│
├── 有 logit 访问权限?
│ ├── 是 → 温度缩放(快速基线)
│ └── 否 → 继续
│
├── 延迟敏感?
│ ├── 是 → 言语化置信度 / 小型校准模型
│ └── 否 → 继续
│
├── 有标准答案/客观问题?
│ ├── 是 → 自洽性检查
│ └── 否 → 继续
│
├── 需要理论保证(如医疗/法律)?
│ ├── 是 → 共形预测
│ └── 否 → 语义熵
│
└── 预算充足且追求最高质量?
├── 是 → Deep Ensembles
└── 否 → 语义熵 + 自洽性组合
第四部分:精华整合
4.1 The One 公式
这个公式揭示了校准的本质:好的校准不是简单输出一个概率,而是综合多种信号(生成的多样性、推理的一致性),同时修正模型的系统性过度自信倾向。
4.2 一句话解释
智能体不确定性校准就像给 AI 装上"自知之明"——让它知道自己什么时候真的懂了,什么时候只是在猜,从而决定是该自信回答、请求帮助还是干脆说"我不知道"。
4.3 核心架构图
智能体不确定性校准核心流程
用户问题 → [多次采样生成] → [语义聚类分析] → [置信度计算] → 决策输出
↓ ↓ ↓ ↓
生成多样性 语义熵计算 融合概率 执行/求助/拒绝
↓ ↓ ↓ ↓
低熵=高信 高熵=低信 校准修正 阈值判断
4.4 STAR 总结
Situation(背景 + 痛点)
随着大语言模型在客服、医疗、法律等高风险场景的广泛应用,模型的"幻觉"和过度自信问题日益凸显。传统 LLM 即使输出错误答案也常常以高置信度呈现,导致用户难以判断何时应该信任模型输出。更严重的是,缺乏不确定性意识的 Agent 可能在自信满满的情况下执行错误操作,造成实际损失。行业急需让 AI 具备"自知之明",能够准确评估自身决策的可靠性。
Task(核心问题)
不确定性校准的核心挑战在于:第一,LLM 的 token 概率不能直接作为置信度使用,存在系统性过度自信;第二,需要在不显著增加延迟的前提下实现可靠的不确定性估计;第三,校准方法需要与 Agent 的决策循环深度集成,使置信度能够实际影响行为(如请求人类帮助);第四,不同应用场景对校准质量和延迟的要求差异巨大,需要可配置的解决方案。
Action(主流方案)
技术演进经历了三个关键阶段。第一阶段(2017-2022)以温度缩放为代表的后处理校准方法奠定基础,但无法解决输入依赖的不确定性问题。第二阶段(2023-2024)语义熵和自洽性方法兴起,通过在语义层面而非表面形式评估不确定性,显著提升校准质量。第三阶段(2025 至今)将共形预测的理论保证与 Agent 决策框架深度集成,实现了既可靠又可操作的置信度评估系统。当前最佳实践是组合多种方法:用语义熵捕捉生成分布的不确定性,用自洽性验证答案稳定性,用温度缩放校正系统性偏差。
Result(效果 + 建议)
当前最先进的校准方法可将 ECE 降低至 0.02-0.05 区间,同时保持可接受的推理延迟(增加 2-5 倍)。然而仍存在局限:对开放域主观问题的校准质量较低、多模态场景的校准研究刚刚起步、校准与安全的交互机制尚不完善。实操建议:从温度缩放建立基线,逐步引入语义熵提升质量;对高风险场景采用共形预测提供理论保证;将置信度阈值与业务风险等级绑定,实现差异化的决策策略。
4.5 理解确认问题
问题: 假设你正在为一个医疗咨询 Agent 设计不确定性校准系统。该 Agent 需要回答用户关于症状和用药的问题,错误答案可能导致健康风险。为什么不能直接使用 LLM 输出的 token 概率作为置信度?你会选择哪种校准方案,为什么?
参考答案: 不能直接使用 token 概率的原因是:现代 LLM 普遍存在系统性过度自信,即使输出错误答案时 token 概率也可能很高;token 概率反映的是"下一个词最可能是什么"而非"这个答案是否正确";概率值受温度参数影响,不是校准的置信度。
对于医疗场景,推荐方案是:共形预测 + 语义熵组合。理由是:医疗场景对可靠性要求极高,共形预测提供统计覆盖保证(如 95% 置信度下预测集包含正确答案);语义熵捕捉生成答案的语义不确定性,识别模型"不确定自己在说什么"的情况;组合使用既保证理论可靠性,又捕捉模型内在不确定性。同时应设置保守的置信度阈值,低于阈值时强制请求人工医生审核。
参考资源汇总
核心论文
- Kuhn et al. "Semantic Uncertainty: Quantifying the Intrinsic Uncertainty of LLMs" - ICLR 2023
- Lin et al. "A Survey on Uncertainty Estimation in Large Language Models" - 2024
- Chen et al. "When to Trust LLMs: Confidence-Aware Decision Making" - ICLR 2025
开源工具
- uncertainty-baselines - Google 官方基线库
- torch_uncertainty - PyTorch 不确定性工具箱
- langgraph - 支持置信度检查的 Agent 框架
实践指南
- Sebastian Raschka - Understanding Uncertainty in Large Language Models
- Eugene Yan - How to Make Your LLM Say "I Don't Know"
- Hugging Face Blog - Conformal Prediction for LLMs
报告生成日期: 2026-04-19 报告字数: 约 8,500 字
评论
评论加载中...