硅谷坐标 x Tensormesh 江鋆晨:AI 的记忆-KvCache的三层理解硅谷坐标SV-Vector

硅谷坐标 x Tensormesh 江鋆晨:AI 的记忆-KvCache的三层理解

46分钟 ·
播放数514
·
评论数5

6月下旬,硅谷坐标主持人曹卿云与Tensormesh的联合创始人和CEO江鋆晨探讨了关于“AI记忆和存储”对话。这次对话聊到了推理瓶颈、Prefill/Decode成本拆解、KV Cache 的三层理解、护城河的真实来源、整个产业格局的判断,以及为什么这件被工业界每天接触的事,最前沿的突破却发生在学术界。Tensormesh和它背后的开源项目 LMCache,做的是一件听起来很底层、却可能定义 AI 下一个十年的事:大模型的记忆管理。


本期嘉宾:

江鋆晨

● Tensormesh和LMCache的联合创始人

● 芝加哥大学计算机系副教授

● 清华姚班

● CMU计算机博士

● 2017年最佳博士论文

 本集时码 Show Notes

● 00:52 AI 推理瓶颈:资源与 workflow 的不对等 

● 02:01 Tensormesh 到底解决哪一个环节

● 03:20 反直觉的成本真相:贵的不是输出,是输入

● 07:10 与模型厂cached token 的区别

● 08:50 KV Cache 的三层理解

● 11:30 为什么学术界领先工业界

● 15:10客户画像:拥有共享知识库的企业

● 20:45与竞争对手的区别

● 22:00对“压缩”的看法

● 23:35 多模态时代,KVCache怎么扩展

● 25:15 存储供给瓶颈看法

● 25:40 经济账:以存代算

● 27:00 这个存储周期有什么不同

● 28:42存储传输速度vs成本 tradeoff

● 30:35 哪个存储层受益最多?

● 32:30 历史的回响:KV Cache 之于 CDN

● 35:50 公司顾问:Ion Stoica和Hui Zhang–Databricks/Spark

● 37:30 Tokenmaxxing和utilization efficiency的机会和挑战

● 39:57模型格局:大模型像在线视频,不像搜索

● 41:23 如何看中国模型前景

● 42:08 如果从Transformer架构换成Mamba

● 43:38 Xai收购Cursor

● 44:22AI 时代的汽油:懂 KV Cache 的人接触不到它,接触得到的人不懂它

一、AI推理瓶颈:资源与 workflow 的不对等

今天整个 AI 推理的环节里,瓶颈到底卡在哪?随着长上下文、Agent、多轮工作流、共享知识库和多模态输入成为真实生产负载,AI推理的约束条件正在从“单次算得出”转向“连续算得起、复用得动、调度得稳”。在这样的负载结构中,模型每处理一次context,都会形成大量内部中间状态KvCache;如果这些状态在请求结束后即被抛弃,那么系统下一次面对相同或相似任务时,只能再次支付完整的prefill成本。于是,问题就从模型层的能力竞争,转变成系统层的记忆治理竞争。谁能更高效地保存、迁移、复用、压缩乃至优化这些中间状态,谁就更有可能同时改写推理成本结构、吞吐表现和服务边界。

他把瓶颈的本质,归结成一句话:"现在的瓶颈说到底,就是资源跟 workflow 的不对等。需要的不仅是改模型、等更好的 GPU,同时也需要软件层面的创新,让这么大的 workflow 在有限的资源上可以跑得好。"Tensormesh,就是那个"软件层面的创新"。


二、Tensormesh 解决的是哪一个环节?

"Tensormesh 是一种软件创新的 startup,做大模型的记忆管理。什么叫记忆管理?江鋆晨解释得很具体:大模型每次看到很多文本之后,会形成一个内部的理解,这就是 KV Cache。Tensormesh 这类软件出现之前,这些记忆经常是被 GPU、被模型直接丢掉的——因为模型是 stateless 的,"它一旦看过一次输入、做过一次输出之后,它不会记这些记忆,它把这些记忆就直接丢了。"Tensormesh 和 LMCache 做的事,就是把这些记忆留存下来。任何时候模型再看到类似的输入、同样的 context,就可以把存下来的记忆复用起来。它就不需要占用 GPU 的 memory,可以把它存在 CPU memory 里面,或者存在 SSD 里面,甚至存在 remote S3 这种远端的存储设备里面。下一次用户再问的时候,再把这个 memory load 回 GPU memory。

关键在于,用户问同一个 context 的时间是非常不连续的——今天问一个,过几分钟问一个,甚至明天再问一遍;或者,不同的人需要同样一段记忆来回答他们的问题。"所以你必须得有一个分开的、存储这些记忆的系统,在边上专门帮大模型管理这些记忆,使得它以后可以不停地复用以前的记忆,但又不需要把这些记忆放在 GPU memory 里面。"

这就是 LMCache 这个"分离存储层"存在的理由。


三、一个反直觉的成本真相:贵的不是输出,是输入

当被问到在大模型的报价里,input token 的价格通常很便宜,是 output 的几分之一。这听起来,"省输入"好像创造不了多少价值。但江鋆晨指出,处理一个 input token 和生成一个 output token,背后真正的计算成本其实是差不多的。

在很多真实场景里,input 的长度甚至远比 output 长——input 几万个 token,output 可能几千个,input 长十几倍。"但你如果看时间,用户盯着屏幕的时候,多少时间在等 input 处理,多少时间在等 output 生成?Input 占的时间只有十分之一,可能 90% 时间都在 output 上。"

模型处理 input 的时候可以大规模并行化,"但并行不代表它计算量小,它其实做了很多很多计算。" 如果你去算 FLOPS,input 和 output 在每个 token 上的计算成本是差不多的。prefill 的成本跟 output 在每个 token 上是一样的,甚至整体 prefill 成本会更高。"

Output 看起来贵,只是因为它慢——它是线性化生成、没有并行,占的 GPU 时间多。从 provider 的角度,它确实看起来更贵,也有更好的理由去 charge 高价。

"但如果算真的成本,更关键的是,因为模型是 stateless 的,agent 应用和长对话会让 input 不断变长,而 output 不会相应变长。所以 "很多时候 agent application 和 chatbot application,它的输入一段时间之后就会比输出长很多。" 大家看到的定价,很大程度上是 inference provider 在 balance cost,并不是 input 便宜、output 贵真实反映了成本。

换句话说,Tensormesh 专攻的"输入侧",恰恰是成本真正的命门。


四、与其他模型厂商cached token区别,以及KV Cache 的三层理解

当被问到“市面上的大模型其实也提供 cached token——某些 token 被缓存下来,价格比input和output token都便宜很多的"白菜价"。这跟 Tensormesh 做的事,有什么不一样?

江鋆晨的回答,引出了这场对话最核心的部分:他对 KV Cache 的三层理解。

他先讲了 prompt caching 的局限:这些推理服务商提供的 cached token,应用场景其实非常有限——cached token 通常只在 CPU 里存下来,一旦放到更便宜的远端存储,性能会差很多。更大的问题是,他们只是在"优化存储效率",而没有看到 KV Cache 里更深的东西。

"在我们看起来,KV Cache 是未来的大数据。因为 KV 本身并不只是一个存下来可以复用的东西——它里面有非常有用的语义信息。这些语义信息,是现在大家把它 cache 下来时不会去看的。"

由此,他展开了三层理解:

第一层:KV Cache 是一个可以存储下来的黑盒数据。 它是一个 cacheable computer state,状态可以被存起来。但在这一层,大家觉得这个黑盒不能改,只能 as is,存什么用什么。"这一层其实很多工业界公司都在做,这是最基本的一层理解。"

第二层:KV Cache 不是黑盒,是白盒,里面有语义信息。 它代表的是模型自己的注意力(attention)信息。"你如果把 KV Cache 的值稍微改一改,只要不改变它的注意力、不改变它的语义信息,这个 KV Cache 一样可以复用,而且复用可以很好。" 到这一层,你可以改造它的内容、让它变小、做压缩、做 update,使得文本在任何地方都能复用;甚至文本不同但语义差不多时也能复用;他们有些技术,甚至可以让 KV Cache 在不同的模型之间复用。"这些学术界做了很多,但工业界现在很少做。"

第三层,是他认为最有意思的一层。把 KV Cache 的内容做一些改变,改变模型的输出,改变模型的 attention。"模型生成结果,取决于两个东西:模型的权重,和模型生成的 KV Cache。"模型的输出,其实就是模型的权重和模型生成的 KV Cache 当中做一些操作生成的结果。所以只要你可以第二层是改 KV Cache 但不改语义;而第三层,"你可以继续改它的语义,你可以告诉模型 pay more attention to this,pay less attention to that。这种操作,甚至可以让模型的输出变得更准、质量更高。"

这是一条不同于"改模型"和"改 prompt"的全新路径——在模型权重不变、prompt 不变的前提下,直接改写模型对内容的理解。"这些事情,学术界已经开始有人做了,但工业界很少有人理解到这一层。"这也正是他创业的原因之一:"在学术界里,可能大家已经走了很远;但你要影响工业界,你必须得做这样一家公司。"


五、为什么是学术界,而不是工业界

一个很自然的疑问随之而来:KV Cache 是工业界每天都在接触的东西,但最前沿的创新,却是学术界在做。这是为什么?

江鋆晨的回答,藏着这家公司最深的护城河。

"工业界看这种数据,工程师看到系统里产生的数字时,第一反应不是去改它,而是把它当黑盒存起来。而学术界看待这种数据,会想:这数据里面有什么语义信息?"

他说,这件事在当年的大数据时代发生过,AI 时代也会再发生一次。

"AI 时代里最重要、最有意思的数据,就是模型自己的记忆。但工业界看这个东西,看到的是一个黑盒数字;学术界看的,是你可以做什么算法。这其实就是为什么我们一直说 KV Cache 是未来的大数据、是石油——是这个数据本身有价值,而不是把它存下来复用一下的价值,way beyond that。"

那么,工业界很快就会用更多的资源、更多的人力把第二层、第三层做掉吗?他坦率地承认:完全有可能,而且本来以为是明年后年的事,"现在有可能今年年底就会发生,KV Cache 的关注度越来越高了。"

但他依然有信心,因为这是一个做 startup 非常好的机遇——对 KV Cache 三层都能有理解,是非常难的事。 他把这个稀缺性讲得极其透彻:

"能做第一层、能做黑盒操作的人,必须是非常好的 back-end infra engineer,能接触到 GPU 才看得到这个数据。但这些人做不了第二层,因为他不知道这个数据里面到底有什么含义。你必须得是做 ML 的人,才能理解这个数据的含义,才能做第二层、第三层。但做第二层、第三层 research 的人,又没有工程的 insights,接触不到真的 KV Cache System。"

"在大公司里面,可能一个公司有做这三层的人,但很难把他们放在一起,做成一整套可以把这三层全打通的系统。"

所以护城河,本质上不在技术,而在人才的稀缺性——能同时缝合系统与 ML 这两端的人,本来就极少,而这些人一旦从学校出来,大多去工业界拿很高的工资,纯粹做 model training 去了。

至于大厂会不会很快下场,他引用了 Sam Altman 的一个观点:"小公司做 startup,你有再好的 vision,去跟大公司的 CEO 面前说这个你应该做,他们也不一定做得了——不是因为没有实力,是因为那个人的 attention 分散的地方太多了。" 大公司有很多 priorities,可能有个组在做这个,但过两个月又得做别的。

"而我们是非常少数的 startup 或开源项目,直接只做这一层、只做这一个 vision。"


六、客户:拥有共享知识库的企业--输入端高度重复

谁是 Tensormesh 最典型的客户?

大企业的典型场景是:coding agent、企业内部的 chatbot、internal financial services、legal services。它们的共同点是有大量的 shared knowledge——公司内部有一个 codebase,需要被所有 coding agent 用;有一套 policy documents,需要给所有 chatbot 用;有一批 legal documents,需要给所有 legal chatbot 用。

所以一种非常 common 的 use case,是 across multiple applications——coding、chatbot、RAG、multimodal——它们都有 shared knowledge 作为模型输入的 context。"这种场景,就是对 LMCache 和 Tensormesh 技术最有利的场景。"

他还点出一个更深的价值:很多 best practice,你可以用 human readable 的方式存起来;但"如果你用 model native 的方式存起来,模型可以直接读,这样它就不用每次再处理了。"

而 agent 的兴起,对他们是结构性的利好:"agent 说到底是一个和环境以迭代方式交互的逻辑。你迭代得越多、交互得越多,它产生的 history 就越多;history 越多,模型每次看到的就是 longer and longer context。"

他解释:现在企业里做 AI 的人,基本就两类——train model 的人,和写 agent application 的人。能提高 agent quality、accuracy 的,也就这两类(要么改模型,要么改 prompt)。

"大家没有人去关注的是:在模型已经确定、prompt 也确定的前提下,怎么让这个模型更好地理解这个 prompt?这是所谓提高 quality 的第三条路。这条路现在看的人很少,所以大家根本没意识到这儿有一个 market。"

而能做这件事的人,又要懂 system 又要懂 ML,需要一个团队同时具备极强的 system 能力和极强的 ML 能力。"这种人才是有的,但这些学生一般去了工业界,拿很高的工资,纯粹做 model training 去了。"


七、与竞争对手的区别

现在做 KV Cache 优化的公司不少,方案各异。Tensormesh 的不同在哪?

江鋆晨的回答分两层。第一层是先发与生态:"我们做这个事情比所有人都早——第一个做这方面的 research,第一个做开源,也是最早有 commercial product 出来的。" 在开源生态上,LMCache 在所有类似的努力里 ecosystem support 最好、用的人最多,而且现在已经不只是他们公司在维护,很多公司都在维护它。但他很诚实:"如果纯说系统技术、就做存储 KV Cache 这些事,我们做的东西跟别人功能上没有太大区别。"

真正的区别在第二层:"绝大多数做 KV 优化的公司,所谓优化就是把它存起来,最多做做压缩,也就到这个程度了。很难有公司有能力,把我刚刚说的那些系统优化都打通。" 而要有一套真的系统、真的 artifact 把这件事做好,让很多人顺利用起来、让很多公司以开源形式贡献——"我有信心说,这没有其他公司可以做得那么好。"

未来趋势

说到压缩,他认为压缩肯定会让每一份 KV Cache 的存储需求变小——但这不代表总的存储需求会下降。杰文斯悖论是计算机系统里很早就有的规律——你把系统效率做得越高,需求量可能也越大,甚至超过效率提高的速度。

他举了一个他们认为独有的技术——CacheBlend:"传统上 KV Cache 只能在前缀上做复用。如果复用的 text 不在前缀,这个 KV 就不能复用,因为它不包含和前缀的关系。它需要被 update 一下、改一下之后才能复用,而这个改的过程,就需要计算。"

由此他给出了一个对理解这家公司至关重要的定性:

所以 KV Cache Storage 不仅仅是个 storage,它是个 service——里面是有 smart intelligence 的。你要把内容改一小下,才能让它复用起来。这样的话,这个存储系统里面就需要有计算能力。所以它不仅是一个存储的问题,也是一个计算的问题——这里面就牵扯到,你真的需要懂系统,也需要懂 ML。"

当被问到未来大量多模态数据应该如何存储。他指出,多媒体输入会让"长输入"的情况越来越多,而这又自带大量冗余的语义信息,有很大的压缩空间。他甚至抛出一个 research idea:在视频里,同一个 video 的 480P 和 1080P,算不算同一个 input?它是一个 input,但转成 token 之后长得完全不一样——这里有很多复用的优化空间。


八、经济账:以存代算,与存储的周期

Tensormesh 的商业本质,建立在"算力贵、存储便宜,用存来代算"的逻辑上。可现在存储一直在涨价,GPU 也在涨。这笔账该怎么算?

江鋆晨对存储涨价的判断很清晰:"存储价格贵,是因为供需不太平衡。只要产能上去了,这些 storage 都可以卖得出去,价格就会下来。" 当然不会下得那么快,因为很多存储厂商的订单都已经订到两年之后了——但长期来看,价格是会下来的。

那经济账应该怎么算?他给的框架是:到底应该多少钱花在硬件上,多少钱花在软件上。

"很多优化是发生在软件层面的。与其花更多的钱去买更多 GPU memory、买更多 storage 和更贵的 GPU,不如想想,是不是有软件的方法,可以让你用现在的 GPU 和现在的 memory 做到类似的事情。其实有很大的提高空间。"

这一轮存储周期,会不会不一样?他类比了大数据时代:当年云厂商的 balance sheet,是按"大家过来租一些机器"来想的;但大数据出来之后,需要的存储、算力、use pattern 都完全不一样了。AI 也有一个全新的 usage pattern,和当年的 cloud 不一样,和大数据也不一样。

"有可能存储会一直是个头痛的大问题,也有可能模型会变得越来越多——比如 RL training 会把一个模型变成 30 个版本,那 GPU 的用量反而会更高。所以这些都是 we'll have to see,不是现在可以很直接预测出来的。"


九、一个经典的系统 Tradeoff,与它的例外

把记忆放到更冷、更慢的存储层,会不会让整个推理变慢?

江鋆晨说,这本质上就是一个计算机系统里非常经典的 tradeoff——计算和存储的 tradeoff。传统上,你减少了计算,就需要存更多,速度就会降低。

但大语言模型里,有一个很有意思的例外:

"如果你存的地方够快——比如在 CPU 里存,甚至 local SSD 或者 GDS(GPU direct storage)里存——它可以既让你省掉很多 GPU 计算、帮你降本,同时把这些东西取回 GPU 复用的速度,反而比重新计算要快。既帮你降本,又帮你提速,这是非常好的事情。"

当然,如果存到更冷、更远端的设备,loading KV Cache 的时间会变长,在某个点上会出现"省了成本,但延迟有所增加"。不过他观察到,由于 KV Cache 的 size 越来越小(有压缩),"一般只要网速不低于几个 Gigabyte per second,存储 KV Cache 都是有好处的——既减少 cost,也提高速度。"  

而"哪一层存储受益最大",他说完全取决于每一层的价格——比如 SSD 如果因为稀缺被推到很高的价格,存 SSD 就不那么经济;但如果模型特别大、KV Cache 特别大,必须存 SSD,那它还是有很大的好处。

那如何保证热的 KV Cache 在快的地方、冷的在慢的地方?

"这个问题在学术界很难解决,在一个产品里面也很难解决。你必须得把决定权——KV Cache 存在哪的决定权——给真的 operator、真的用这个系统的人。"

因为如何判断一个 KV Cache 是热是冷、下一秒会被用还是十分钟后被用、是不是每天八点钟都用——这些靠产品本身去猜很难。"你必须得有一个 interface,让真的用这个系统的人,去表达他的 domain knowledge。" 这也是他们 vision 的一部分:不做一套 transparent(透明)的 KV Cache 系统,而是让公司里真正接触系统的人的知识,也能用在把产品变得更好的过程中。


十、历史的回响:KvCache之于CDN

"CDN 是 2000 年左右非常火的一个概念。最早、最好的供应商之一叫 Akamai——Akamai 就是当年的 OpenAI,火到这种程度。因为它在互联网刚开始的时候,是一个非常重要的组件。没有它,每个人看网页都得花十秒甚至更长;有了 Akamai,直接半秒钟就给你了。"

Akamai 干的事,就是把数据放在用户非常容易接触到、delay 非常低的地方。

"我们一开始说 KV Cache 的时候就在想:是不是应该做一个 CDN for KV Cache?这样模型在需要 KV Cache 的时候,就可以从非常近的一个地方把它挪过来。"

只不过他们后来发现,今天的模型大多还跑在同一个 data center 里。"那我就先在一个 data center 里面,做一个类似 mini CDN 的东西——那其实就跟现在做 KV Cache storage 差不多。"

那未来数据中心之间互相连接、向更大的规模扩张,是不是对他们更利好——他说:"过两三年之后,inference service 可能会变得更分布,尤其是 Edge AI 出来之后更分布。分布式之后,就会需要一套 Internet scale 的 distribution system,那可能就会回到我们两年前说的 knowledge delivery network 的那种感觉。"

为什么现在还都在一个 data center 里?因为对 cost 来说这最省,而且大家对延迟的要求还没那么高——毕竟一开始大家做的都是 chatbot,生成速度够人看就行。"但 Agent 不一样。人是读人生成的东西,而 Agent 生成的东西是给它自己读的——你生成得越快,Agent 跑得越快。" 当对延迟的要求越来越高,大家就会希望把推理硬件放到离终端用户越近的地方。

"那个时候,模型离用户越来越近,模型跟模型之间的距离就会越来越远。现在是所有人在网络的周边,模型和硬件全在中间;但以后,可能就需要一个 Internet 2.0——一个模型之间的 Internet,到那个时候,就会有一种新的 CDN 出来。我们当时可能想得太乐观了,但三年里这件事没有发生,不代表六年、十年不会发生。"


十一、Tokenmaxxing 与 Jevons 悖论

当被问到如何看"token maxxing",江鋆晨坦言公司并没有在做这件事,但他的粗浅理解是:大家对 AI model 的能力有很强的自信,于是把越来越多、越来越复杂的任务都放到 model 上,token 消耗越来越高;甚至 AI 做了个错误的决定,还需要 AI 去 fix,token 用量进一步增加。

"这就像神灯一样,大家觉得搓一搓,什么都能解决。但 some point,大家会意识到这个 cost 并不一定能 justify 它的 benefit——这不代表技术不行,只是需要更好的方法来利用这个技术。"

而这恰恰是很多 agent 公司火起来的原因:它们帮你找出哪些 token、哪些 context 是真正有用的,给工程师更好的界面去 express their intention,从而减少 token 用量。"这些对我们来说,都是好事。""现在大家做 token maxing,都是以野蛮生长的方式去写 agent——模型看过什么、生成什么,就直接放到 context 里面,下次继续让它读。相当于每次问模型:这是你之前看到过的所有东西、说过的所有话,你读一遍,回答新的问题。这真的是非常 naive 的方法,而且非常消耗 token。"很多公司在做 compression,把以前的东西 compact 一下;但很多东西没法压缩,只能让它重复利用。"而你复用,不需要复用所有的东西——这就是我们技术有用的地方之一。" 野蛮生长的时候,大家复用的都是前缀;但聪明一点,会有很多"非前缀"的复用——这正是 CacheBlend 被很多公司感兴趣的原因:它让大家做更有效率的 token maxing,不需要让模型一直把以前所有东西再看一遍。


十二、格局:大模型像在线视频,不像搜索

对大模型的终局,江鋆晨给了一个清晰的判断框架。他说,历史上一种很强、每个人都需要用的技术,最后会有两种商业终局:

第一种,像搜索——谷歌一家独大,其他份额小到多数人都听不到,大公司也都用谷歌。

第二种,像在线视频——YouTube 是最大最好的,但还有 Netflix,还有 HBO、BBC、Hulu 这些叫得上名、也非常重要的视频网站。它们的流量没有 YouTube 大,但很多人都觉得离不开,都是非常成功的商业模式。

"我觉得大模型有可能最后会更像在线视频。会有少数公司非常大、consolidate,但也会有很多 service 需要它自己独立的生存空间,并且也非常重要——它们有自己的生态。"

而这背后,藏着 Tensormesh 的机会:"有很多情况,是不能用第三方闭源模型甚至闭源服务的。比如主权 AI,比如客户信息、商业机密保护得非常好的企业级用户——他们永远需要一套自己可以维护、自己可以控制的软件系统。"

谈到中国模型,他的评价很直接。2025 年的 DeepSeek、2026 年最近智谱的 GLM,表现都很惊艳。背后原因很多,他没有深入展开,但结果是清楚的:

"除非有很大的改变,未来几年里面,开源模型可能还是得看国内的开源模型。"

当被问到如果未来换成 Mamba 这种新架构,它产生的"笔记"完全不一样,不一定是 KV Cache影响会怎样?江鋆晨回答 KV Cache其实是一个暂时的名字。它更本质的概念,是 model native data、AI native data。是模型在推理、在运行过程中生成的中间状态,是它自己内部的理解。"

"这种数据,在 Mamba 里也有,在 diffusion model 里也有,在以前的 convolutional neural network 里也有——所有 model 都有。只不过在现在这个阶段,Transformer 是最 popular 的 architecture,而 KV Cache 就是 Transformer 的 AI native data。"

他也给了对 Mamba 现状的判断:Mamba 的 intermediate data 是线性的、跟文本长度不直接相关。但 Mamba 现在用得并不多——很多模型只是用 Mamba 的架构去替换中间的某些层。"像千问 3.5,它多数层是 Mamba,但有大概四分之一的层,还是用 full attention、还是 Transformer。所以现在业界的共识,是把一些 Mamba、一些 Transformer 结合起来,做所谓的 hybrid model。"

至于最近 xAI 收购 Cursor,他说这本身就是一个趋势:"推理厂商、agent、底层模型、service provider,大家都在 consolidate,这肯定会发生——就跟当时做 cloud、做 container service、做 big data 一样,一开始百花齐放,但很快大家都会 consolidate。" Cursor 对 xAI 肯定有商业价值,但这只是众多并购里的一个例子。"以后可能每个月、甚至每个礼拜,你都会听到一个比较大的收购。"


尾声:AI时代的汽油

对话的最后,我们抛出了一个比喻,KV Cache 是 AI 时代的汽油。 因为在提炼石油的时候,汽油曾经只是一个副产品,长期被当作废弃的燃料——直到内燃机出现,它才被重视,并成为驱动整个现代工业的核心。

江鋆晨说,这个比喻非常好。绝大多数人看 KV Cache 的时候,知道它就是模型在跑的时候生成的一个 by-product,在 GPU 内部存一会儿之后就丢了。当然,做 ML 的人知道,KV Cache 是非常有意思的信息——但他们接触不到 KV Cache。

"所以现在是,懂 KV Cache 的人接触不到它,接触得到 KV Cache 的人不懂它。但哪天真的有一家公司,把这个价值给挖出来了——那它就从废料变成宝了,就跟汽油一样。"

那么,那个"内燃机时刻"会是什么时候?

他的回答非常自信:

"取决于我们公司的发展。"

 

 

 

 

 

 

 

 

 

 

 

 

 

展开Show Notes
这一期有视频版吗
Qingyun曹卿云
:
谢谢支持 请看B站和Youtube 有配图和字幕哟
peace_uFbA
peace_uFbA
9小时前
很不错👍
愤怒可颂
愤怒可颂
19小时前
很好的节目
sg_33Ok
sg_33Ok
20小时前
喜欢这个节目,访谈问的问题很深入