节目简介
你以为AI推理慢是因为算力不够?
错了。
真正的瓶颈是内存,而且我们还在用一种极其浪费的方式使用它。
实测数据:传统方法只用到了分配内存的20-38%。
这一期我们从KV缓存讲起,聊到Paged Attention如何借鉴1980年代操作系统的虚拟内存技术,最终让vLLM实现2-4倍的吞吐量提升。
时间线
00:00 开场 · 一支烟花社区播客
01:00 为什么内存比算力先成为瓶颈
03:00 KV缓存是什么——写作文时记在纸边的词义
06:00 没有KV缓存会怎样——O(n²)的恐怖
08:30 传统实现为什么在浪费内存
12:00 那个震惊的数字:20-38%利用率
15:00 解决方案:1980年代的操作系统虚拟内存
16:30 Paged Attention三机制:块级分配、块表、共享前缀
21:00 结果:2-4倍吞吐量提升,内存浪费接近零
22:00 vLLM为什么成为生产首选
23:00 与系列联动:从存什么记忆到GPU里怎么放
核心观点
· KV缓存是LLM推理加速的核心——没有它每次生成都要重新计算所有之前token的注意力,O(n²)灾难
· 传统实现浪费严重:为每个请求预留最大长度空间,实际利用率只有20-38%
· Paged Attention借鉴OS虚拟内存:KV缓存分成小块(通常16token一块),散落在GPU内存各处
· 块表 = 页表:每个请求维护一个映射,LLM不关心物理位置只看逻辑编号
· 共享前缀是最关键的优化:100个并发请求共享同一系统提示,KV缓存只存一份 · vLLM、TensorRT-LLM、SGLang都采用了类似机制
关于一支烟花
成立于 2023 年,硬核 AI 社区,业内口碑不错。
公众号:一支烟花AI
欢迎加入社群交流
