Paged Attention—GPU内存的省钱之道

节目简介

你以为AI推理慢是因为算力不够？

错了。

真正的瓶颈是内存，而且我们还在用一种极其浪费的方式使用它。

实测数据：传统方法只用到了分配内存的20-38%。

这一期我们从KV缓存讲起，聊到Paged Attention如何借鉴1980年代操作系统的虚拟内存技术，最终让vLLM实现2-4倍的吞吐量提升。

时间线

00:00 开场 · 一支烟花社区播客

01:00 为什么内存比算力先成为瓶颈

03:00 KV缓存是什么——写作文时记在纸边的词义

06:00 没有KV缓存会怎样——O(n²)的恐怖

08:30 传统实现为什么在浪费内存

12:00 那个震惊的数字：20-38%利用率

15:00 解决方案：1980年代的操作系统虚拟内存

16:30 Paged Attention三机制：块级分配、块表、共享前缀

21:00 结果：2-4倍吞吐量提升，内存浪费接近零

22:00 vLLM为什么成为生产首选

23:00 与系列联动：从存什么记忆到GPU里怎么放

核心观点

· KV缓存是LLM推理加速的核心——没有它每次生成都要重新计算所有之前token的注意力，O(n²)灾难

· 传统实现浪费严重：为每个请求预留最大长度空间，实际利用率只有20-38%

· Paged Attention借鉴OS虚拟内存：KV缓存分成小块（通常16token一块），散落在GPU内存各处

· 块表 = 页表：每个请求维护一个映射，LLM不关心物理位置只看逻辑编号

· 共享前缀是最关键的优化：100个并发请求共享同一系统提示，KV缓存只存一份 · vLLM、TensorRT-LLM、SGLang都采用了类似机制

关于一支烟花

成立于 2023 年，硬核 AI 社区，业内口碑不错。

公众号：一支烟花AI

欢迎加入社群交流