CoreWeave是谁?为什么英伟达最先进的芯片优先给它?最新观点

CoreWeave是谁?为什么英伟达最先进的芯片优先给它?

16分钟 ·
播放数6
·
评论数0

有没有想过:从英伟达道GPU到我们最终使用的OpenAI的聊天机器人,中间是如何实现的?

谈到AI,很多人会把注意力都放在“芯片”和“模型”上,却很少认真讨论第三个更难的问题——谁来把成千上万张GPU,组织成一台真正可用的超级计算机?

这不是一个“买卡就行”的问题,像我们买PC一样,回家就能用,而是一个典型的“工程地狱”。

英伟达可以在实验室里把一块新GPU测试到极致,那是它的强项;可当要把几万块这种“最复杂、最娇气”的芯片,塞进真实的数据中心,让它们像一个军团一样24小时持续协作,而且还不能动不动就崩,不能一训练就掉速,不能一拥堵就拖垮吞吐,这完全是另一种能力。

也正是在这个缝隙里,一家很多人还没听过的公司,被推到了舞台中央:CoreWeave。

它表面是一家云服务公司,但它真正做的事,可能更像AI革命背后那台“几乎看不见,却无比强大”的算力引擎。

更有意思的是,这家公司看起来像一个新物种:长着硅谷的脑袋,却跳着华尔街的心脏。它既靠技术和工程吃饭,又能用金融结构把重资产玩到极致,这才是我觉得最值得你花时间看懂的部分。

最近看了巴伦周刊对CoreWeave CEO Mike Intrator的访谈,我们整理了访谈中的核心观点,帮助大家理解AI时代的云计算。

串行到并行,云计算的范式转移

CoreWeave的CEO在访谈里一上来就把话说得很直白:他们不是传统云。

我们熟悉的AWS、Azure这种云平台,本质上是在互联网时代成长起来的,它们最早要服务的对象是什么?网站、APP、企业软件、数据库,这些东西背后的计算模式有一个共同特征:串行。

串行听起来技术味很重,但其实你每天都在用。你处理工作往往是先把任务A做完,再去做任务B,按顺序推进,环环相扣。绝大多数互联网应用也是这种逻辑:请求进来,数据库查询,返回结果,下一步再做别的事情。它需要稳定、通用、易扩展,传统云在这个场景里几乎是完美的。

但训练大模型完全不是这回事。

大模型的训练不是“解决一个大问题”,更像是在一个由几万张GPU组成的集群上,同时处理“几万亿个微不足道的小问题”,把这些小问题的梯度、参数更新、通信同步,像流水线一样不停地循环。

它需要的不是城市里的单行道,而是一条多车道的高速公路,而且车流量大到夸张,还要求所有车队保持队形,不允许有人掉队。

传统云的架构很多时候就像“为单行道设计的城市交通”,而CoreWeave从诞生第一天起,目标就很明确:它就是为这条“百车道高速公路”而生的。

它在硬件之上搭了一层专门为大规模并行计算优化的软件层,核心任务只有一个:把英伟达GPU的性能压榨到极致,让这台由海量GPU拼出来的“超级机器”真正跑得稳、跑得快、跑得久。

CEO在访谈里甚至有点狂,说他们这套方案领先对手好几年。

三合一的创新:技术+基建+金融

很多人理解云服务,第一反应是租服务器、卖算力,差不多就是“硬件租赁生意”。但CoreWeave的逻辑是另一套,它把自己的商业模式拆成三个必须像齿轮一样紧密咬合的部分,而且任何一个齿轮掉链子,整个机器都会失速。

第一块是技术层,前面说过,它要用软件把GPU集群的并行效率做上去,真正让训练变得可控、稳定、可复制。

第二块是物理基础设施。CEO用了一个词叫“行星级规模的算力建设”。想要满足AI井喷的算力需求,就要疯狂建数据中心。这是一门典型的重资产业务,资本开支巨大,建设周期长,运营复杂,还要被能源、土地、政策、供应链各种变量牵着走。

除了技术和基建能力,还有最容易被外界忽略、但却是它真正命脉的第三样东西,那就是——资本运作。

想要在全球范围内铺开“行星级”的数据中心网络并非易事!这不是靠几轮融资就能解决的,它需要动辄上百亿美元的资金,且资金来源必须足够稳定、成本足够低、结构足够精细,否则你光是利息就能把公司拖死。(具体的操作方法我们后面展开。)

于是CoreWeave的真正形态就浮现出来了:它本质上是一家“三合一公司”——顶尖软件公司+重资产基建公司+金融工程公司。这个定义听起来夸张,但后面你会发现,它不这么做根本活不了,甚至也做不大。

为什么不能轻资产?

访谈里有一个细节特别真实:CEO坦白说,他一开始压根不想碰数据中心。原因很简单,数据中心像房地产,太重、风险高、利润薄,还不够“酷”,跟硅谷那种轻资产、爆发式增长的叙事完全不搭。

他本来更想做一个潇洒的轻资产玩家:专注软件和服务,别碰砖块水泥。

但现实很快给他上了一课。随着AI算力需求爆炸,全球能源市场,尤其是电力变得异常紧张。

今天要建一个数据中心,很多时候最难的不是买不到服务器,而是拿不到电,排不到变压器,搞不定并网,过不了审批(这些问题之前马斯克那期也聊到过)。也就是说,在这个时代,扩张速度随时可能被“电”卡住脖子。

于是控制物理资产,从一个他想避免的麻烦,变成了必须拥抱的核心战略:为了保证能以最快速度把AI需要的“高速公路”修到任何地方,他们必须自己去当那个“基建矿工”。

更聪明的是,他们的扩张不是自己画地图瞎建,而是被客户拉着走。一个大客户说“我需要在欧洲有一个新的算力集群”,CoreWeave才启动建设计划,这就保证每一笔几十亿的投入砸下去之前,需求已经锁定,风险被提前压到最低。

这不像硅谷传统叙事里那种“先建起来再赌需求”的故事,更像工业时代的订单驱动——因为只有这样,重资产扩张才不会把自己烧穿。

与英伟达:共生,但不平等

在数据中心里,GPU是数据中心的心脏,那CoreWeave和英伟达到底是什么关系,为什么英伟达会给他们优先提供GPU?

CEO用了一句非常精妙的话来形容:共生,但不平等。

共生很好理解:英伟达需要有人把它的芯片真正用到极致,跑出真实世界的性能与问题反馈;而CoreWeave需要英伟达的最先进GPU来维持自己的竞争力与交付能力。

但不平等体现在哪里?一句话,英伟达是定义规则的那根支点。CoreWeave的商业模式建立在英伟达的技术领先之上,一旦英伟达不再是最强,CoreWeave会被最先伤到——这是CEO自己都很清醒的现实认知。

更微妙的部分在于:英伟达在实验室里把芯片测试好是一回事,把几万张新芯片部署到真实数据中心,让它们像军团一样全天候协作作战,才是另一回事。CoreWeave的角色,某种程度上就像英伟达新武器的“首席测试场”和“最佳示范岗位”。

这也解释了一个很多人好奇的问题:为什么英伟达的先进芯片会大笔流向CoreWeave,而不是全部优先给AWS、Azure这种老牌巨头?

因为在这个阶段,英伟达最需要的不是“谁最有钱”,而是“谁最会把新芯片跑起来,并且跑到极致”,谁能最快把新架构变成可规模化的工程能力,谁就更像英伟达在现实世界里的延长线。

(补充:黄仁勋在公开访谈里也提到这点,这是英伟达投资CoreWeave的原因之一,英伟达的CPU也会在CoreWeave试点。)

于是我们可以看到一个反馈循环:CoreWeave帮助英伟达在真实世界里验证新技术、提供海量运行数据、暴露问题并加速迭代;作为回报,英伟达确保CoreWeave能更早、更稳定拿到最先进的芯片。

共生成立,不平等也成立。双方都很现实。

真正颠覆认知的地方:“华尔街的方法”

接下来这段,是整篇访谈里最值得反复读的部分,就是前文提到的第三项创新。

公司CEO本人并不是技术大神,而是来自华尔街的商品交易人。他看问题的角度跟硅谷典型创业者完全不同。他说,硅谷的VC习惯投轻资产、高增长的软件公司,经典剧本是用股权融资赌你未来涨一百倍。但重资产基础设施这种东西,没法靠“讲一个改变世界的梦”就源源不断拿钱。

华尔街的债务市场规则更简单粗暴:把我的钱还给我。融资方必须给投资人一个能被精算师塞进模型里、可以计算风险、可以确保回报的金融结构。

于是他们搞出了一个被称作“盒子”的融资设计。

假设微软签了一份五年期的算力租赁合同,价值几十亿美元。CoreWeave要买一大批最新GPU来服务这份合同,常规思路是拿合同去银行贷款,但他们的做法更精巧:专门为这笔交易设立一个特殊目的实体(SPV),把这笔交易相关的一切像搭积木一样塞进“盒子”里——合同本身(未来现金流保证)、GPU所有权(抵押品)、数据中心租赁合同、购电协议等等,所有关键组件都用法律文件锁进一个独立体系。

更关键的是资金流向:微软支付的钱不进CoreWeave公司的口袋,而是直接进入盒子的账户,然后像瀑布一样按优先级自动分配——先付电费,再付机房租金,再偿还GPU贷款本息,只有这些“天王老子级”的成本都付清之后,剩余利润才会流回CoreWeave。

这套结构对债权人来说相当于一个金融保险箱,因为还款顺序被写死在最高优先级,而且过程自动化,基本不受CoreWeave其他业务波动影响。风险被压到最低,资金成本自然就能降下来。

这也是为什么CEO强调:CoreWeave买GPU从来不是投机,他们不是赌未来有没有人租,而是恰恰相反——每一批几十亿美元的GPU,在下单之前,未来五年的使用权就已经被大客户用长期合同预售锁定,合同结束时贷款刚好还清,CoreWeave不仅拿到稳定利润,还“免费”留下了一批仍有价值的GPU资产。

CEO把这块残值与期权价值称为“Equity Slug”,可以把它理解成:一份被金融结构保护过的“硬件期权”。

这就是华尔街的玩法:把看似风险极高的重资产投资,拆解成风险可控、回报明确的债务产品,从而撬动传统VC根本不敢碰的债务市场资本。

“资本内循环”的回应

聊到这里,很多人会立刻提出质疑:微软投了OpenAI,OpenAI是CoreWeave的大客户,CoreWeave又是英伟达的大客户,而微软和英伟达本身关系紧密,甚至还有交叉持股,这不就像一个资本内循环吗?

CEO没有直接反驳,而是给了一个比喻:如果全世界突然出现系统性的铜矿短缺,需求是供给的十倍,开采、冶炼、加工这些环节为了锁定产能、提高效率,必然会形成极其紧密的合作,甚至相互投资。这不是阴谋,而是资源极度稀缺下的理性选择。

他的意思很明确:今天的AI领域,正在经历一场系统性的算力短缺。无论是云巨头,还是芯片制造商,拼尽全力也供不应求。

在这种史无前例的建设速度与需求压力下,巨头间的协同与绑定并不奇怪,它更像一种被现实倒逼出来的协同作战。

对于我们的意义:算力成本指数下降

最后那个数字,才是真正应该让我们停下来想一想的。在访谈最后,CEO抛出一个数字,我觉得几乎可以当成这轮AI革命的注脚:

OpenAI处理100万个token的成本,在GPT-3时代大约是39美元,而今天已经降到9美分。

从39美元到9美分,这种下降速度意味着什么?意味着曾经遥不可及、只有巨头才玩得起的计算能力,正在快速变成一种可被普遍使用的基础设施。

当算力像自来水一样便宜,真正值得思考的问题就变了:我们的注意力可能还停留在巨头发布的震撼模型上,但当数以百万计的小团队甚至个人都能负担得起这项技术时,会涌现出哪些我们今天根本想象不到的、小众的、个人化的应用?下一波真正颠覆性的创新浪潮,会从哪里冒出来?

CoreWeave的意义可能不在于它多会融资、多会建机房,而在于它正在把AI的“底座”做成一种可规模化、可复制、可扩张的工业能力。

真正的变化,往往就藏在这种不太起眼的地方。