Paged Attention—GPU内存的省钱之道

Paged Attention—GPU内存的省钱之道

25分钟 ·
播放数24
·
评论数0

节目简介

你以为AI推理慢是因为算力不够?

错了。

真正的瓶颈是内存,而且我们还在用一种极其浪费的方式使用它。

实测数据:传统方法只用到了分配内存的20-38%。

这一期我们从KV缓存讲起,聊到Paged Attention如何借鉴1980年代操作系统的虚拟内存技术,最终让vLLM实现2-4倍的吞吐量提升。

时间线

00:00 开场 · 一支烟花社区播客 

01:00 为什么内存比算力先成为瓶颈

 03:00 KV缓存是什么——写作文时记在纸边的词义

 06:00 没有KV缓存会怎样——O(n²)的恐怖

 08:30 传统实现为什么在浪费内存

 12:00 那个震惊的数字:20-38%利用率

 15:00 解决方案:1980年代的操作系统虚拟内存

 16:30 Paged Attention三机制:块级分配、块表、共享前缀

 21:00 结果:2-4倍吞吐量提升,内存浪费接近零

 22:00 vLLM为什么成为生产首选

 23:00 与系列联动:从存什么记忆到GPU里怎么放

核心观点

· KV缓存是LLM推理加速的核心——没有它每次生成都要重新计算所有之前token的注意力,O(n²)灾难

 · 传统实现浪费严重:为每个请求预留最大长度空间,实际利用率只有20-38% 

· Paged Attention借鉴OS虚拟内存:KV缓存分成小块(通常16token一块),散落在GPU内存各处 

· 块表 = 页表:每个请求维护一个映射,LLM不关心物理位置只看逻辑编号 

· 共享前缀是最关键的优化:100个并发请求共享同一系统提示,KV缓存只存一份 · vLLM、TensorRT-LLM、SGLang都采用了类似机制

关于一支烟花

成立于 2023 年,硬核 AI 社区,业内口碑不错。

公众号:一支烟花AI 

欢迎加入社群交流