大模型推理服务弹性伸缩机制深度调研报告

调研主题： 大模型推理服务弹性伸缩机制 所属域： 大模型框架 调研日期： 2026-04-11 报告版本： 3.0

维度一：概念剖析

1.1 定义澄清

通行定义

大模型推理服务弹性伸缩机制（Elastic Autoscaling for LLM Inference Serving）是指在大语言模型（LLM）推理服务场景中，根据实时负载动态调整计算资源（GPU 实例数量、KVCache 分配、计算单元规模等）的系统能力。其核心目标是在满足服务等级目标（SLO）的前提下，最大化资源利用率和成本效益。

与传统的微服务弹性伸缩不同，LLM 推理弹性伸缩需要考虑以下特殊性：

请求异质性：不同请求的 token 数量差异巨大（从几 token 到数十万 token）
两阶段特性：Prefill（预填充）和 Decode（解码）阶段具有完全不同的资源特征
显存约束：GPU 显存是核心瓶颈资源，而非 CPU 或内存
冷启动延迟：模型加载和 KVCache 预热需要数秒至数十秒
状态依赖性：KVCache 状态需要在实例间迁移或共享，不能简单无状态扩缩容

常见误解

误解	正确理解
误解 1：弹性伸缩就是简单的 HPA（水平 Pod 自动伸缩）	传统 HPA 基于 CPU/内存指标，而 LLM 推理需要基于队列深度、等待请求数、GPU KVCache 利用率等专用指标进行弹性决策。2025 年 KubeCon 多项研究表明，基于队列深度的 KEDA 方案响应速度比 HPA 快 3 倍以上
误解 2：伸缩粒度只能是整卡/整节点	现代系统支持更细粒度的弹性，包括 KVCache 池的动态分配、专家并行（Expert Parallelism）的弹性调整、以及 Prefill/Decode 阶段的独立伸缩。Mooncake 架构实现了 KVCache 与计算节点的完全解耦
误解 3：弹性伸缩只关注扩容，不关注缩容	缩容（Scale-down）同样重要，需要优雅地处理正在进行的请求、迁移 KVCache 状态，避免请求中断。2026 年 KevlarFlow 研究将 MTTR 降低 20 倍，核心是优雅的缩容恢复机制
误解 4：弹性伸缩是纯基础设施问题	弹性伸缩与调度算法、KVCache 管理、请求路由等应用层逻辑深度耦合，需要全栈协同设计。vLLM Production Stack 将指标采集深度集成到推理引擎中
误解 5：简单的实例复制即可解决扩容问题	LLM 推理具有状态性（KV Cache），简单的 Pod 复制会导致缓存失效和冷启动开销。现代方案采用 KV Cache 分离、Prefix Cache 共享、请求路由优化等技术

边界辨析

概念	核心区别
弹性伸缩 vs. 负载均衡	弹性伸缩关注资源数量的动态调整；负载均衡关注请求在现有资源间的分配。两者通常配合使用，但目标不同
弹性伸缩 vs. 模型压缩	弹性伸缩是系统层面的资源调度；模型压缩（量化、剪枝、蒸馏）是模型层面的优化。前者不影响模型精度，后者会
弹性伸缩 vs. 批处理优化	弹性伸缩是粗粒度的资源调整（秒级）；批处理优化（Continuous Batching）是细粒度的请求调度（毫秒级）
弹性伸缩 vs. 多租户隔离	弹性伸缩关注资源总量调整；多租户隔离关注资源在租户间的公平分配和 QoS 保障
推理伸缩 vs. 训练伸缩	推理伸缩关注低延迟和高吞吐，需要快速响应负载变化；训练伸缩关注大规模并行效率，通常是静态或准静态配置

1.2 核心架构

┌─────────────────────────────────────────────────────────────────────┐
│                    大模型推理服务弹性伸缩系统架构                      │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│   ┌──────────────┐    ┌──────────────┐    ┌──────────────────────┐ │
│   │  客户端请求   │ →  │  负载均衡器   │ →  │      请求路由器       │ │
│   └──────────────┘    └──────────────┘    └──────────┬───────────┘ │
│                                                       ↓             │
│   ┌───────────────────────────────────────────────────────────────┐ │
│   │                      弹性伸缩控制器                            │ │
│   │  ┌─────────────┐  ┌─────────────┐  ┌─────────────────────────┐│ │
│   │  │  指标采集器  │  │  伸缩决策器  │  │     资源执行器          ││ │
│   │  │  - 队列深度  │  │  - 阈值判断  │  │  - Kubernetes HPA     ││ │
│   │  │  - GPU 利用率  │  │  - 预测算法  │  │  - KEDA 事件驱动      ││ │
│   │  │  - KVCache   │  │  - 冷却策略  │  │  - 自定义资源调度      ││ │
│   │  │  - P99 延迟   │  │  - 负载预测  │  │  - Ray/K8s 调度器     ││ │
│   │  └─────────────┘  └─────────────┘  └─────────────────────────┘│ │
│   └───────────────────────────────────────────────────────────────┘ │
│                              ↓                                      │
│   ┌───────────────────────────────────────────────────────────────┐ │
│   │                      推理服务集群                              │ │
│   │  ┌─────────────────┐           ┌─────────────────────────────┐│ │
│   │  │  Prefill 节点池  │           │      Decode 节点池          ││ │
│   │  │  (计算密集型)    │ ←KVCache→ │     (内存密集型)            ││ │
│   │  │  - 高吞吐优化    │  共享池   │     - 低延迟优化            ││ │
│   │  │  - A100/H100     │  Mooncake│     - T4/A10                ││ │
│   │  └─────────────────┘           └─────────────────────────────┘│ │
│   └───────────────────────────────────────────────────────────────┘ │
│                              ↓                                      │
│   ┌───────────────────────────────────────────────────────────────┐ │
│   │                      监控与可观测性                            │ │
│   │  ┌──────────────┐  ┌──────────────┐  ┌─────────────────────┐  │ │
│   │  │   Prometheus  │  │  Grafana     │  │  分布式追踪 (Jaeger)│  │ │
│   │  │  指标存储     │  │  可视化      │  │  延迟追踪           │  │ │
│   │  └──────────────┘  └──────────────┘  └─────────────────────┘  │ │
│   └───────────────────────────────────────────────────────────────┘ │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

数据流向说明：
1. 用户请求 → Gateway 入口 → 负载均衡器（基于一致性哈希或最少连接）
2. 请求路由器根据请求特征（prompt 长度、模型版本、租户 ID）路由到合适实例
3. 指标采集器实时采集队列深度、GPU 利用率、KVCache 使用率、P99 延迟
4. 伸缩决策器基于规则和预测模型做出扩容/缩容决策
5. 资源执行器通过 Kubernetes/KEDA/Ray 执行实际伸缩操作
6. KVCache 共享池支持跨节点缓存迁移和预热

各组件职责说明：

组件	职责	关键技术
负载均衡器	接收客户端请求，基于一致性哈希或最少连接数进行初步分发	Envoy, Nginx, Istio
请求路由器	根据请求特征（prompt 长度、模型版本）路由到合适的服务实例	vLLM Router, Ray Router
指标采集器	实时采集推理服务的核心指标（队列深度、等待请求数、GPU 显存使用率、KVCache 命中率）	Prometheus, DCGM
伸缩决策器	基于采集的指标，结合阈值规则或预测算法，做出伸缩决策	KEDA, Chiron, SageServe
资源执行器	执行伸缩动作，如 Kubernetes HPA、KEDA 事件驱动伸缩、或自定义的资源调度	K8s API, Ray API
Prefill 节点池	专门处理计算密集的预填充阶段，可独立弹性伸缩	vLLM, TensorRT-LLM
Decode 节点池	专门处理内存密集的解码阶段，可独立弹性伸缩	vLLM, SGLang
KVCache 共享池	跨节点的分布式 KVCache 存储，支持预填充和解耦节点间的 Cache 传输	Mooncake, RDMA

大模型推理服务弹性伸缩机制深度调研报告

大模型推理服务弹性伸缩机制深度调研报告

目录

维度一：概念剖析

1.1 定义澄清

通行定义

常见误解

边界辨析

1.2 核心架构

1.3 数学形式化

公式 1：弹性伸缩决策函数

评论