前段时间,马斯克宣称已经启动了世界上最强的AI训练集群,使用了100,000块英伟达H100液冷GPU。不用数了,是10万。没错,是10万卡。更恐怖的是,搭建10万卡只用了19天。
这个集群位于美国田纳西州的孟菲斯,据估计,它每小时使用的电力最高会达到150兆瓦,相当于10万户家庭的用电量。
随着大模型的不断发展,智算集群的规模以令人震惊的速度扩张壮大。但随之而来的能耗问题也引发了人们对能源问题的担忧。
智算集群规模的扩张真的是一个量变引起质变的过程吗?“规模”两个字对人工智能的发展又意味着什么?液冷和风冷是如何给算力设施降温的?能耗问题会成为制约AI发展的桎梏吗?
时间轴|
00:48“大力出奇迹”的智算集群?
02:42 算力到底是什么?
03:22 没有算力是万万不能的?
04:50 十万卡训出来的大模型将会有多强?
07:25“伪万卡集群”VS“真万卡集群”
08:31 智算集群是怎么建成的?
15:53 智算集群是用电大户
19:08 给智算集群降温的风冷和液冷
23:55 能耗问题会制约AI的发展吗?
25:18 国内建设万卡集群的难点
【风冷智算集群】

【液冷智算集群】

本期音乐|Throwaway - SG Lewis/Clairo Pines- Men| Trust
关于「不止科技」
出 品|之江实验室
制作人|豪仔
主 播|zhizhi
视觉设计|功仔
欢迎大家在评论区给我们留言,可以说说你想听的话题,想邀请的录制嘉宾,也恳请大家给我们提出意见建议。我们将抽取10位“一键三连”的订阅粉丝送出我们的文创产品。

