
原文:链接
1. 引言:被“带宽墙”困住的AI算力
作为架构师,我们长期以来都面临一个极度奢侈的“烦恼”:为了让大模型推理的 Prefill(预填充)和 Decode(解码)阶段高效协同,我们被迫将昂贵的 GPU 资源锁进一个个昂贵的“RDMA 网络孤岛”中。在传统的 PD 分离(Prefill-Decode Disaggregation)架构下,机房的地理边界就是系统的物理极限。
核心矛盾在于:如果我们将预填充和解码跨中心、跨地域部署,那如洪水般涌出的 KVCache 数据传输成本,是否会瞬间撑爆网络带宽,让 TTFT(首字延迟)变得不可接受?这个困扰业界已久的“带宽墙”,正随着模型架构的范式转移而悄然崩塌。
2. 突破“带宽墙”:为什么 KVCache 不再是沉重的负担?
在稠密模型(Dense Models)统治的时代,跨中心传输 KVCache 简直是天方夜谭。衡量这一挑战的核心指标是 KV 吞吐量 (Phi-kv),其定义为:Phi_kv(l) = S_kv(l) / T_prefill(l)。
以稠密模型 MiniMax-M2.5 为例,当处理 32K 长度的上下文时,单个实例产生的 KV 吞吐量高达惊人的 60 Gbps。究其原因,是因为预填充耗时(T-prefill)在高性能算力下被压得很低,而产生的 KVCache 体积(S-kv)却随着长度线性爆炸。这种流量强度远超普通商用以太网的承载能力,使得预填充和解码节点必须像连体婴儿一样,死死捆绑在同个 RDMA 织网内。
但转折点已经出现:当带宽需求从“物理红线”降级为一个“可优化指标”时,大模型推理的地理边界就此消失了。
3. 混合注意力机制:模型架构带来的“免费午餐”
最近兴起的混合注意力架构(如 Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T 等)正在从源头解决网络瓶颈。这些模型通过结合线性注意力(Linear Attention)或滑动窗口注意力(SWA)与少量全注意力层,实现了对 KVCache 的降维打击。
这里有一个关键的“Aha!”时刻: 传统全注意力的 KVCache 是“块级增长”的,会随序列长度无限拉伸;而线性注意力的状态(States)是“请求级固定”的。这意味着无论你的上下文是 10K 还是 100K,线性部分的缓存体积始终保持不变。这种特性直接发放了跨中心推理的“入场券”。
下表展示了 32K 上下文下,混合模型与传统模型在 KV 吞吐量上的鸿沟:

“KVCache 友好型模型架构是必要条件,但并非充分条件。真正让跨中心部署变得务实的原因,是模型侧的 KV 减负与系统侧的‘选择性卸载’策略的深度结合。” —— 这正是 PrfaaS 论文的核心洞察。
4. PrfaaS:像调用云服务一样处理 Prefill
基于此,Prefill-as-a-Service (PrfaaS) 架构应运而生。它不再强求所有算力同地部署,而是将预填充抽象为一种可跨区调用的云服务。
其精妙之处在于选择性卸载 (Selective Offloading)。系统不会盲目地将所有请求都送往远程,而是根据请求的“增量长度”设定阈值 t:
- 短请求: 留在本地处理,避免网络往返开销。
- 长请求: 路由至专门的 PrfaaS 集群。这些集群部署了高性能算力,利用普通商用以太网 (Commodity Ethernet) 传回生成的 KVCache。
这种设计完美契合了当前的硬件演进趋势:我们正进入一个“阶段专业化硬件”时代。例如 NVIDIA Rubin CPX 这种专为预填充设计的高算力芯片,可以与 Groq LPU 这种专为解码设计的高带宽芯片异地协同,不再受限于同一台服务器的物理空间。

5. 智能调度:不只是带宽,更是对资源的极限压榨
为了应对波动的网络和不均衡的请求,PrfaaS 引入了双时间尺度调度策略:
- 短期策略(带宽与缓存感知): 调度器不仅实时监控以太网链路的拥塞情况,更具备“缓存亲和性”识别能力。在路由前,它会检查本地 PD 集群是否已经存有该请求的 Prefix Cache。如果本地已有,则优先本地处理;只有当卸载带来的计算加速远超传输延迟时,才会执行跨中心调度。
- 长期策略(流量驱动分配): 这是一个动态的“角色置换”机制。根据长期的流量画像(如用户平均输入长度的漂移),系统会自动调整 PD 集群内部预填充节点(PD-P)与解码节点(PD-D)的数量比例,确保没有任何一个 GPU 会因为阶段性失衡而处于闲置状态。
6. 惊人的实测结果:效率提升 54% 背后的真相
在针对 1T 参数量级混合模型的实测中,研究者构建了一个极具代表性的异构战场:32 台远程 H200 (PrfaaS 集群) 支援 64 台本地 H20 (解码集群)。结果令人振奋:
- 吞吐量: 相比传统的同构 PD 部署,整体吞吐量提升了 54%。
- TTFT 优化: P90 首字延迟降低了 64%,长文本用户再也不用面对漫长的转圈等待。
- 带宽负荷: 在 100 Gbps 的链路上,跨中心流量仅占用了 13% (约 13 Gbps)。
这意味着,我们完全可以用性价比极高的非顶级算力(如 H20 等)作为解码节点,通过跨中心调用顶配 H200 的预填充服务,跑出远超“顶配全家桶”的效能。
7. 结语:LLM 推理的地理去中心化想象
当模型架构的演进解决了“数据太大”的问题,而系统调度解决了“路不顺畅”的问题,算力将彻底摆脱机房的物理边界。PrfaaS 的成功预示着 LLM 推理正进入一个地理去中心化的新时代。
未来,预填充算力可能会像今天的水电煤一样,由大型算力工厂在电力低廉的区域集中供应,而解码节点则像 CDN 边缘节点一样,部署在离用户最近的地方。

互动思考题: 当 KVCache 可以跨越数千公里实时流动时,全球算力市场的游戏规则将会发生怎样的巨变?欢迎在评论区分享你的看法。
