6月下旬，硅谷坐标主持人曹卿云与Tensormesh的联合创始人和CEO江鋆晨探讨了关于“AI记忆和存储”对话。这次对话聊到了推理瓶颈、Prefill/Decode成本拆解、KV Cache 的三层理解、护城河的真实来源、整个产业格局的判断，以及为什么这件被工业界每天接触的事，最前沿的突破却发生在学术界。Tensormesh和它背后的开源项目 LMCache，做的是一件听起来很底层、却可能定义 AI 下一个十年的事：大模型的记忆管理。

本期嘉宾：

江鋆晨

● Tensormesh和LMCache的联合创始人

● 芝加哥大学计算机系副教授

● 清华姚班

● CMU计算机博士

● 2017年最佳博士论文

本集时码 Show Notes

● 00:52 AI 推理瓶颈：资源与 workflow 的不对等　

● 02:01 Tensormesh 到底解决哪一个环节

● 03:20 反直觉的成本真相：贵的不是输出，是输入

● 07:10 与模型厂cached token 的区别

● 08:50 KV Cache 的三层理解

● 11:30 为什么学术界领先工业界

● 15:10客户画像：拥有共享知识库的企业

● 20:45与竞争对手的区别

● 22:00对“压缩”的看法

● 23:35 多模态时代，KVCache怎么扩展

● 25:15 存储供给瓶颈看法

● 25:40 经济账：以存代算

● 27:00 这个存储周期有什么不同

● 28:42存储传输速度vs成本 tradeoff

● 30:35 哪个存储层受益最多？

● 32:30 历史的回响：KV Cache 之于 CDN

● 35:50 公司顾问：Ion Stoica和Hui Zhang–Databricks/Spark

● 37:30 Tokenmaxxing和utilization efficiency的机会和挑战

● 39:57模型格局：大模型像在线视频，不像搜索

● 41:23 如何看中国模型前景

● 42:08 如果从Transformer架构换成Mamba

● 43:38 Xai收购Cursor

● 44:22AI 时代的汽油：懂 KV Cache 的人接触不到它，接触得到的人不懂它

一、AI推理瓶颈：资源与 workflow 的不对等

今天整个 AI 推理的环节里，瓶颈到底卡在哪？随着长上下文、Agent、多轮工作流、共享知识库和多模态输入成为真实生产负载，AI推理的约束条件正在从“单次算得出”转向“连续算得起、复用得动、调度得稳”。在这样的负载结构中，模型每处理一次context，都会形成大量内部中间状态KvCache；如果这些状态在请求结束后即被抛弃，那么系统下一次面对相同或相似任务时，只能再次支付完整的prefill成本。于是，问题就从模型层的能力竞争，转变成系统层的记忆治理竞争。谁能更高效地保存、迁移、复用、压缩乃至优化这些中间状态，谁就更有可能同时改写推理成本结构、吞吐表现和服务边界。

他把瓶颈的本质，归结成一句话："现在的瓶颈说到底，就是资源跟 workflow 的不对等。需要的不仅是改模型、等更好的 GPU，同时也需要软件层面的创新，让这么大的 workflow 在有限的资源上可以跑得好。"Tensormesh，就是那个"软件层面的创新"。

二、Tensormesh 解决的是哪一个环节？

"Tensormesh 是一种软件创新的 startup，做大模型的记忆管理。什么叫记忆管理？江鋆晨解释得很具体：大模型每次看到很多文本之后，会形成一个内部的理解，这就是 KV Cache。Tensormesh 这类软件出现之前，这些记忆经常是被 GPU、被模型直接丢掉的——因为模型是 stateless 的，"它一旦看过一次输入、做过一次输出之后，它不会记这些记忆，它把这些记忆就直接丢了。"Tensormesh 和 LMCache 做的事，就是把这些记忆留存下来。任何时候模型再看到类似的输入、同样的 context，就可以把存下来的记忆复用起来。它就不需要占用 GPU 的 memory，可以把它存在 CPU memory 里面，或者存在 SSD 里面，甚至存在 remote S3 这种远端的存储设备里面。下一次用户再问的时候，再把这个 memory load 回 GPU memory。

关键在于，用户问同一个 context 的时间是非常不连续的——今天问一个，过几分钟问一个，甚至明天再问一遍；或者，不同的人需要同样一段记忆来回答他们的问题。"所以你必须得有一个分开的、存储这些记忆的系统，在边上专门帮大模型管理这些记忆，使得它以后可以不停地复用以前的记忆，但又不需要把这些记忆放在 GPU memory 里面。"

这就是 LMCache 这个"分离存储层"存在的理由。

三、一个反直觉的成本真相：贵的不是输出，是输入

当被问到在大模型的报价里，input token 的价格通常很便宜，是 output 的几分之一。这听起来，"省输入"好像创造不了多少价值。但江鋆晨指出，处理一个 input token 和生成一个 output token，背后真正的计算成本其实是差不多的。

在很多真实场景里，input 的长度甚至远比 output 长——input 几万个 token，output 可能几千个，input 长十几倍。"但你如果看时间，用户盯着屏幕的时候，多少时间在等 input 处理，多少时间在等 output 生成？Input 占的时间只有十分之一，可能 90% 时间都在 output 上。"

模型处理 input 的时候可以大规模并行化，"但并行不代表它计算量小，它其实做了很多很多计算。" 如果你去算 FLOPS，input 和 output 在每个 token 上的计算成本是差不多的。prefill 的成本跟 output 在每个 token 上是一样的，甚至整体 prefill 成本会更高。"

Output 看起来贵，只是因为它慢——它是线性化生成、没有并行，占的 GPU 时间多。从 provider 的角度，它确实看起来更贵，也有更好的理由去 charge 高价。

"但如果算真的成本，更关键的是，因为模型是 stateless 的，agent 应用和长对话会让 input 不断变长，而 output 不会相应变长。所以 "很多时候 agent application 和 chatbot application，它的输入一段时间之后就会比输出长很多。" 大家看到的定价，很大程度上是 inference provider 在 balance cost，并不是 input 便宜、output 贵真实反映了成本。

换句话说，Tensormesh 专攻的"输入侧"，恰恰是成本真正的命门。

四、与其他模型厂商cached token区别，以及KV Cache 的三层理解

当被问到“市面上的大模型其实也提供 cached token——某些 token 被缓存下来，价格比input和output token都便宜很多的"白菜价"。这跟 Tensormesh 做的事，有什么不一样？

江鋆晨的回答，引出了这场对话最核心的部分：他对 KV Cache 的三层理解。

他先讲了 prompt caching 的局限：这些推理服务商提供的 cached token，应用场景其实非常有限——cached token 通常只在 CPU 里存下来，一旦放到更便宜的远端存储，性能会差很多。更大的问题是，他们只是在"优化存储效率"，而没有看到 KV Cache 里更深的东西。

"在我们看起来，KV Cache 是未来的大数据。因为 KV 本身并不只是一个存下来可以复用的东西——它里面有非常有用的语义信息。这些语义信息，是现在大家把它 cache 下来时不会去看的。"

由此，他展开了三层理解：

第一层：KV Cache 是一个可以存储下来的黑盒数据。它是一个 cacheable computer state，状态可以被存起来。但在这一层，大家觉得这个黑盒不能改，只能 as is，存什么用什么。"这一层其实很多工业界公司都在做，这是最基本的一层理解。"

第二层：KV Cache 不是黑盒，是白盒，里面有语义信息。它代表的是模型自己的注意力（attention）信息。"你如果把 KV Cache 的值稍微改一改，只要不改变它的注意力、不改变它的语义信息，这个 KV Cache 一样可以复用，而且复用可以很好。" 到这一层，你可以改造它的内容、让它变小、做压缩、做 update，使得文本在任何地方都能复用；甚至文本不同但语义差不多时也能复用；他们有些技术，甚至可以让 KV Cache 在不同的模型之间复用。"这些学术界做了很多，但工业界现在很少做。"

第三层，是他认为最有意思的一层。把 KV Cache 的内容做一些改变，改变模型的输出，改变模型的 attention。"模型生成结果，取决于两个东西：模型的权重，和模型生成的 KV Cache。"模型的输出，其实就是模型的权重和模型生成的 KV Cache 当中做一些操作生成的结果。所以只要你可以第二层是改 KV Cache 但不改语义；而第三层，"你可以继续改它的语义，你可以告诉模型 pay more attention to this，pay less attention to that。这种操作，甚至可以让模型的输出变得更准、质量更高。"

这是一条不同于"改模型"和"改 prompt"的全新路径——在模型权重不变、prompt 不变的前提下，直接改写模型对内容的理解。"这些事情，学术界已经开始有人做了，但工业界很少有人理解到这一层。"这也正是他创业的原因之一："在学术界里，可能大家已经走了很远；但你要影响工业界，你必须得做这样一家公司。"

五、为什么是学术界，而不是工业界

一个很自然的疑问随之而来：KV Cache 是工业界每天都在接触的东西，但最前沿的创新，却是学术界在做。这是为什么？

江鋆晨的回答，藏着这家公司最深的护城河。

"工业界看这种数据，工程师看到系统里产生的数字时，第一反应不是去改它，而是把它当黑盒存起来。而学术界看待这种数据，会想：这数据里面有什么语义信息？"

他说，这件事在当年的大数据时代发生过，AI 时代也会再发生一次。

"AI 时代里最重要、最有意思的数据，就是模型自己的记忆。但工业界看这个东西，看到的是一个黑盒数字；学术界看的，是你可以做什么算法。这其实就是为什么我们一直说 KV Cache 是未来的大数据、是石油——是这个数据本身有价值，而不是把它存下来复用一下的价值，way beyond that。"

那么，工业界很快就会用更多的资源、更多的人力把第二层、第三层做掉吗？他坦率地承认：完全有可能，而且本来以为是明年后年的事，"现在有可能今年年底就会发生，KV Cache 的关注度越来越高了。"

但他依然有信心，因为这是一个做 startup 非常好的机遇——对 KV Cache 三层都能有理解，是非常难的事。他把这个稀缺性讲得极其透彻：

"能做第一层、能做黑盒操作的人，必须是非常好的 back-end infra engineer，能接触到 GPU 才看得到这个数据。但这些人做不了第二层，因为他不知道这个数据里面到底有什么含义。你必须得是做 ML 的人，才能理解这个数据的含义，才能做第二层、第三层。但做第二层、第三层 research 的人，又没有工程的 insights，接触不到真的 KV Cache System。"

"在大公司里面，可能一个公司有做这三层的人，但很难把他们放在一起，做成一整套可以把这三层全打通的系统。"

所以护城河，本质上不在技术，而在人才的稀缺性——能同时缝合系统与 ML 这两端的人，本来就极少，而这些人一旦从学校出来，大多去工业界拿很高的工资，纯粹做 model training 去了。

至于大厂会不会很快下场，他引用了 Sam Altman 的一个观点："小公司做 startup，你有再好的 vision，去跟大公司的 CEO 面前说这个你应该做，他们也不一定做得了——不是因为没有实力，是因为那个人的 attention 分散的地方太多了。" 大公司有很多 priorities，可能有个组在做这个，但过两个月又得做别的。

"而我们是非常少数的 startup 或开源项目，直接只做这一层、只做这一个 vision。"

六、客户：拥有共享知识库的企业--输入端高度重复

谁是 Tensormesh 最典型的客户？

大企业的典型场景是：coding agent、企业内部的 chatbot、internal financial services、legal services。它们的共同点是有大量的 shared knowledge——公司内部有一个 codebase，需要被所有 coding agent 用；有一套 policy documents，需要给所有 chatbot 用；有一批 legal documents，需要给所有 legal chatbot 用。

所以一种非常 common 的 use case，是 across multiple applications——coding、chatbot、RAG、multimodal——它们都有 shared knowledge 作为模型输入的 context。"这种场景，就是对 LMCache 和 Tensormesh 技术最有利的场景。"

他还点出一个更深的价值：很多 best practice，你可以用 human readable 的方式存起来；但"如果你用 model native 的方式存起来，模型可以直接读，这样它就不用每次再处理了。"

而 agent 的兴起，对他们是结构性的利好："agent 说到底是一个和环境以迭代方式交互的逻辑。你迭代得越多、交互得越多，它产生的 history 就越多；history 越多，模型每次看到的就是 longer and longer context。"

他解释：现在企业里做 AI 的人，基本就两类——train model 的人，和写 agent application 的人。能提高 agent quality、accuracy 的，也就这两类（要么改模型，要么改 prompt）。

"大家没有人去关注的是：在模型已经确定、prompt 也确定的前提下，怎么让这个模型更好地理解这个 prompt？这是所谓提高 quality 的第三条路。这条路现在看的人很少，所以大家根本没意识到这儿有一个 market。"

而能做这件事的人，又要懂 system 又要懂 ML，需要一个团队同时具备极强的 system 能力和极强的 ML 能力。"这种人才是有的，但这些学生一般去了工业界，拿很高的工资，纯粹做 model training 去了。"

七、与竞争对手的区别

现在做 KV Cache 优化的公司不少，方案各异。Tensormesh 的不同在哪？

江鋆晨的回答分两层。第一层是先发与生态："我们做这个事情比所有人都早——第一个做这方面的 research，第一个做开源，也是最早有 commercial product 出来的。" 在开源生态上，LMCache 在所有类似的努力里 ecosystem support 最好、用的人最多，而且现在已经不只是他们公司在维护，很多公司都在维护它。但他很诚实："如果纯说系统技术、就做存储 KV Cache 这些事，我们做的东西跟别人功能上没有太大区别。"

真正的区别在第二层："绝大多数做 KV 优化的公司，所谓优化就是把它存起来，最多做做压缩，也就到这个程度了。很难有公司有能力，把我刚刚说的那些系统优化都打通。" 而要有一套真的系统、真的 artifact 把这件事做好，让很多人顺利用起来、让很多公司以开源形式贡献——"我有信心说，这没有其他公司可以做得那么好。"

未来趋势

说到压缩，他认为压缩肯定会让每一份 KV Cache 的存储需求变小——但这不代表总的存储需求会下降。杰文斯悖论是计算机系统里很早就有的规律——你把系统效率做得越高，需求量可能也越大，甚至超过效率提高的速度。

他举了一个他们认为独有的技术——CacheBlend："传统上 KV Cache 只能在前缀上做复用。如果复用的 text 不在前缀，这个 KV 就不能复用，因为它不包含和前缀的关系。它需要被 update 一下、改一下之后才能复用，而这个改的过程，就需要计算。"

由此他给出了一个对理解这家公司至关重要的定性：

所以 KV Cache Storage 不仅仅是个 storage，它是个 service——里面是有 smart intelligence 的。你要把内容改一小下，才能让它复用起来。这样的话，这个存储系统里面就需要有计算能力。所以它不仅是一个存储的问题，也是一个计算的问题——这里面就牵扯到，你真的需要懂系统，也需要懂 ML。"

当被问到未来大量多模态数据应该如何存储。他指出，多媒体输入会让"长输入"的情况越来越多，而这又自带大量冗余的语义信息，有很大的压缩空间。他甚至抛出一个 research idea：在视频里，同一个 video 的 480P 和 1080P，算不算同一个 input？它是一个 input，但转成 token 之后长得完全不一样——这里有很多复用的优化空间。

八、经济账：以存代算，与存储的周期

Tensormesh 的商业本质，建立在"算力贵、存储便宜，用存来代算"的逻辑上。可现在存储一直在涨价，GPU 也在涨。这笔账该怎么算？

江鋆晨对存储涨价的判断很清晰："存储价格贵，是因为供需不太平衡。只要产能上去了，这些 storage 都可以卖得出去，价格就会下来。" 当然不会下得那么快，因为很多存储厂商的订单都已经订到两年之后了——但长期来看，价格是会下来的。

那经济账应该怎么算？他给的框架是：到底应该多少钱花在硬件上，多少钱花在软件上。

"很多优化是发生在软件层面的。与其花更多的钱去买更多 GPU memory、买更多 storage 和更贵的 GPU，不如想想，是不是有软件的方法，可以让你用现在的 GPU 和现在的 memory 做到类似的事情。其实有很大的提高空间。"

这一轮存储周期，会不会不一样？他类比了大数据时代：当年云厂商的 balance sheet，是按"大家过来租一些机器"来想的；但大数据出来之后，需要的存储、算力、use pattern 都完全不一样了。AI 也有一个全新的 usage pattern，和当年的 cloud 不一样，和大数据也不一样。

"有可能存储会一直是个头痛的大问题，也有可能模型会变得越来越多——比如 RL training 会把一个模型变成 30 个版本，那 GPU 的用量反而会更高。所以这些都是 we'll have to see，不是现在可以很直接预测出来的。"

九、一个经典的系统 Tradeoff，与它的例外

把记忆放到更冷、更慢的存储层，会不会让整个推理变慢？

江鋆晨说，这本质上就是一个计算机系统里非常经典的 tradeoff——计算和存储的 tradeoff。传统上，你减少了计算，就需要存更多，速度就会降低。

但大语言模型里，有一个很有意思的例外：

"如果你存的地方够快——比如在 CPU 里存，甚至 local SSD 或者 GDS（GPU direct storage）里存——它可以既让你省掉很多 GPU 计算、帮你降本，同时把这些东西取回 GPU 复用的速度，反而比重新计算要快。既帮你降本，又帮你提速，这是非常好的事情。"

当然，如果存到更冷、更远端的设备，loading KV Cache 的时间会变长，在某个点上会出现"省了成本，但延迟有所增加"。不过他观察到，由于 KV Cache 的 size 越来越小（有压缩），"一般只要网速不低于几个 Gigabyte per second，存储 KV Cache 都是有好处的——既减少 cost，也提高速度。"

而"哪一层存储受益最大"，他说完全取决于每一层的价格——比如 SSD 如果因为稀缺被推到很高的价格，存 SSD 就不那么经济；但如果模型特别大、KV Cache 特别大，必须存 SSD，那它还是有很大的好处。

那如何保证热的 KV Cache 在快的地方、冷的在慢的地方？

"这个问题在学术界很难解决，在一个产品里面也很难解决。你必须得把决定权——KV Cache 存在哪的决定权——给真的 operator、真的用这个系统的人。"

因为如何判断一个 KV Cache 是热是冷、下一秒会被用还是十分钟后被用、是不是每天八点钟都用——这些靠产品本身去猜很难。"你必须得有一个 interface，让真的用这个系统的人，去表达他的 domain knowledge。" 这也是他们 vision 的一部分：不做一套 transparent（透明）的 KV Cache 系统，而是让公司里真正接触系统的人的知识，也能用在把产品变得更好的过程中。

十、历史的回响：KvCache之于CDN

"CDN 是 2000 年左右非常火的一个概念。最早、最好的供应商之一叫 Akamai——Akamai 就是当年的 OpenAI，火到这种程度。因为它在互联网刚开始的时候，是一个非常重要的组件。没有它，每个人看网页都得花十秒甚至更长；有了 Akamai，直接半秒钟就给你了。"

Akamai 干的事，就是把数据放在用户非常容易接触到、delay 非常低的地方。

"我们一开始说 KV Cache 的时候就在想：是不是应该做一个 CDN for KV Cache？这样模型在需要 KV Cache 的时候，就可以从非常近的一个地方把它挪过来。"

只不过他们后来发现，今天的模型大多还跑在同一个 data center 里。"那我就先在一个 data center 里面，做一个类似 mini CDN 的东西——那其实就跟现在做 KV Cache storage 差不多。"

那未来数据中心之间互相连接、向更大的规模扩张，是不是对他们更利好——他说："过两三年之后，inference service 可能会变得更分布，尤其是 Edge AI 出来之后更分布。分布式之后，就会需要一套 Internet scale 的 distribution system，那可能就会回到我们两年前说的 knowledge delivery network 的那种感觉。"

为什么现在还都在一个 data center 里？因为对 cost 来说这最省，而且大家对延迟的要求还没那么高——毕竟一开始大家做的都是 chatbot，生成速度够人看就行。"但 Agent 不一样。人是读人生成的东西，而 Agent 生成的东西是给它自己读的——你生成得越快，Agent 跑得越快。" 当对延迟的要求越来越高，大家就会希望把推理硬件放到离终端用户越近的地方。

"那个时候，模型离用户越来越近，模型跟模型之间的距离就会越来越远。现在是所有人在网络的周边，模型和硬件全在中间；但以后，可能就需要一个 Internet 2.0——一个模型之间的 Internet，到那个时候，就会有一种新的 CDN 出来。我们当时可能想得太乐观了，但三年里这件事没有发生，不代表六年、十年不会发生。"

十一、Tokenmaxxing 与 Jevons 悖论

当被问到如何看"token maxxing"，江鋆晨坦言公司并没有在做这件事，但他的粗浅理解是：大家对 AI model 的能力有很强的自信，于是把越来越多、越来越复杂的任务都放到 model 上，token 消耗越来越高；甚至 AI 做了个错误的决定，还需要 AI 去 fix，token 用量进一步增加。

"这就像神灯一样，大家觉得搓一搓，什么都能解决。但 some point，大家会意识到这个 cost 并不一定能 justify 它的 benefit——这不代表技术不行，只是需要更好的方法来利用这个技术。"

而这恰恰是很多 agent 公司火起来的原因：它们帮你找出哪些 token、哪些 context 是真正有用的，给工程师更好的界面去 express their intention，从而减少 token 用量。"这些对我们来说，都是好事。""现在大家做 token maxing，都是以野蛮生长的方式去写 agent——模型看过什么、生成什么，就直接放到 context 里面，下次继续让它读。相当于每次问模型：这是你之前看到过的所有东西、说过的所有话，你读一遍，回答新的问题。这真的是非常 naive 的方法，而且非常消耗 token。"很多公司在做 compression，把以前的东西 compact 一下；但很多东西没法压缩，只能让它重复利用。"而你复用，不需要复用所有的东西——这就是我们技术有用的地方之一。" 野蛮生长的时候，大家复用的都是前缀；但聪明一点，会有很多"非前缀"的复用——这正是 CacheBlend 被很多公司感兴趣的原因：它让大家做更有效率的 token maxing，不需要让模型一直把以前所有东西再看一遍。

十二、格局：大模型像在线视频，不像搜索

对大模型的终局，江鋆晨给了一个清晰的判断框架。他说，历史上一种很强、每个人都需要用的技术，最后会有两种商业终局：

第一种，像搜索——谷歌一家独大，其他份额小到多数人都听不到，大公司也都用谷歌。

第二种，像在线视频——YouTube 是最大最好的，但还有 Netflix，还有 HBO、BBC、Hulu 这些叫得上名、也非常重要的视频网站。它们的流量没有 YouTube 大，但很多人都觉得离不开，都是非常成功的商业模式。

"我觉得大模型有可能最后会更像在线视频。会有少数公司非常大、consolidate，但也会有很多 service 需要它自己独立的生存空间，并且也非常重要——它们有自己的生态。"

而这背后，藏着 Tensormesh 的机会："有很多情况，是不能用第三方闭源模型甚至闭源服务的。比如主权 AI，比如客户信息、商业机密保护得非常好的企业级用户——他们永远需要一套自己可以维护、自己可以控制的软件系统。"

谈到中国模型，他的评价很直接。2025 年的 DeepSeek、2026 年最近智谱的 GLM，表现都很惊艳。背后原因很多，他没有深入展开，但结果是清楚的：

"除非有很大的改变，未来几年里面，开源模型可能还是得看国内的开源模型。"

当被问到如果未来换成 Mamba 这种新架构，它产生的"笔记"完全不一样，不一定是 KV Cache影响会怎样？江鋆晨回答 KV Cache其实是一个暂时的名字。它更本质的概念，是 model native data、AI native data。是模型在推理、在运行过程中生成的中间状态，是它自己内部的理解。"

"这种数据，在 Mamba 里也有，在 diffusion model 里也有，在以前的 convolutional neural network 里也有——所有 model 都有。只不过在现在这个阶段，Transformer 是最 popular 的 architecture，而 KV Cache 就是 Transformer 的 AI native data。"

他也给了对 Mamba 现状的判断：Mamba 的 intermediate data 是线性的、跟文本长度不直接相关。但 Mamba 现在用得并不多——很多模型只是用 Mamba 的架构去替换中间的某些层。"像千问 3.5，它多数层是 Mamba，但有大概四分之一的层，还是用 full attention、还是 Transformer。所以现在业界的共识，是把一些 Mamba、一些 Transformer 结合起来，做所谓的 hybrid model。"

至于最近 xAI 收购 Cursor，他说这本身就是一个趋势："推理厂商、agent、底层模型、service provider，大家都在 consolidate，这肯定会发生——就跟当时做 cloud、做 container service、做 big data 一样，一开始百花齐放，但很快大家都会 consolidate。" Cursor 对 xAI 肯定有商业价值，但这只是众多并购里的一个例子。"以后可能每个月、甚至每个礼拜，你都会听到一个比较大的收购。"

尾声：AI时代的汽油

对话的最后，我们抛出了一个比喻，KV Cache 是 AI 时代的汽油。因为在提炼石油的时候，汽油曾经只是一个副产品，长期被当作废弃的燃料——直到内燃机出现，它才被重视，并成为驱动整个现代工业的核心。

江鋆晨说，这个比喻非常好。绝大多数人看 KV Cache 的时候，知道它就是模型在跑的时候生成的一个 by-product，在 GPU 内部存一会儿之后就丢了。当然，做 ML 的人知道，KV Cache 是非常有意思的信息——但他们接触不到 KV Cache。

"所以现在是，懂 KV Cache 的人接触不到它，接触得到 KV Cache 的人不懂它。但哪天真的有一家公司，把这个价值给挖出来了——那它就从废料变成宝了，就跟汽油一样。"