EP02 | GPU基础:看完这集你能看懂参数表了

EP02 | GPU基础:看完这集你能看懂参数表了

26分钟 ·
播放数20
·
评论数0

节目简介
显存容量、显存带宽、NVLink、计算精度……这些参数到底决定了什么?为什么训练和推理要选不同的卡?A100、H100、H200、L40S 各自适合干什么?零基础听完就能建立选卡直觉。

本期要点

  • 🔧 GPU 六大核心参数详解:显存容量(工作台大小)、显存带宽(传送带速度)、计算精度、NVLink(工位间直达通道)、功耗散热、PCIe vs SXM 形态

  • 🆚 训练 vs 推理选卡逻辑:训练看算力+互联,推理看显存带宽——完全不同

  • 📊 主流 GPU 定位速览:A100(全能主力)、H100(新一代训练王)、H200(大显存版H100)、L40S(推理性价比之选)

  • 🇨🇳 中国市场特殊背景:A800/H800 是什么、为什么存在、和原版差在哪

  • ⚠️ 一个反直觉的结论:官方参数强的卡不一定市场上好卖(L40S vs A100 案例)

  • ✅ 一张卡值不值得买的快速判断清单

推荐收听场景 要采购 GPU 之前必听,帮你建立基本判断力

这一页要解决什么问题

搞清楚不同 GPU 的:

  • 适用场景

  • 核心参数

  • 采购价值

  • 租赁价值


先理解的核心参数

1. 显存容量(VRAM)

  • 决定能跑多大模型、能否容纳更大 batch

  • 7B 模型约需 14-28GB(取决于精度),70B 模型需多卡

  • 经验法则:模型参数量 × 2~4(FP16 下约 ×2,训练开销约 ×4)= 显存需求

2. 显存带宽(Memory Bandwidth)

  • 大模型推理是典型 内存带宽瓶颈(每生成一个 token 都要读一遍全部权重)

  • HBM3 > HBM2e >> GDDR6(代际差距巨大)

  • 推理场景下,带宽直接决定 token 生成速度

3. 计算精度与算力

精度 用途 说明 FP32 传统训练 32 位浮点,精度最高但慢 TF32 PyTorch 默认 19 位,NVIDIA 专用,性能好于 FP32 FP16 训练常用 16 位,需配合 loss scaling BF16 大模型训练首选 16 位,动态范围同 FP32,精度略低 FP8 新一代推理/训练 Hopper 架构起支持,吞吐翻倍 INT8 推理量化 精度损失小,速度快 INT4 极端推理压缩 需要量化框架支持

关键判断:选卡时关注 FP16/BF16 Tensor Core 算力,这是训练的主力指标;推理则额外关注 FP8/INT8。

4. 卡间互联

互联方式 带宽 说明 PCIe Gen4 x16 ~32 GB/s 通用接口,带宽有限 PCIe Gen5 x16 ~64 GB/s 新一代,但卡间通信仍不够 NVLink 3.0 600 GB/s A100,卡对卡直连 NVLink 4.0 900 GB/s H100/H200 NVLink 5.0 1800 GB/s B200,带宽翻倍 NVSwitch — 多卡全互联的交换芯片(4卡/8卡/更多)

判断要点:8 卡训练场景(如 LLM),NVLink 是刚需。PCIe 版卡做小模型推理够用,但做训练会浪费算力等通信。

5. 功耗与散热

  • TDP(热设计功耗)直接影响机柜供电、散热方案和托管成本

  • 高端 SXM 卡(如 H100 SXM 700W)需要专用散热(液冷或高风量)

  • 一台 8×H100 SXM 服务器总功耗约 10-12kW(含 CPU、内存等)

6. 形态

  • PCIe 卡:标准插卡,通用性强,散热简单,性能稍低

  • SXM 模块:NVIDIA 专用,需要 HGX 基板,NVLink 全互联,性能最高


主流数据中心 GPU 对比表

高端训练型

型号 显存 显存类型 带宽 FP16 Tensor¹ BF16 Tensor¹ FP8 Tensor¹ NVLink TDP 形态 大致市场价² H100 SXM 80 GB HBM3 3.35 TB/s 495 TFLOPS 495 TFLOPS 990 TFLOPS 900 GB/s 700W SXM5 ¥18-25万 H100 PCIe 80 GB HBM3 2 TB/s 268 TFLOPS 268 TFLOPS 536 TFLOPS 600 GB/s 350W PCIe ¥15-20万 H200 SXM 141 GB HBM3e 4.8 TB/s 495 TFLOPS 495 TFLOPS 990 TFLOPS 900 GB/s 700W SXM5 ¥25-35万 B200 192 GB HBM3e 8 TB/s 1125 TFLOPS 1125 TFLOPS 2250 TFLOPS 1800 GB/s 1000W SXM6 ¥30-45万³ B100 192 GB HBM3e 8 TB/s 875 TFLOPS 875 TFLOPS 1750 TFLOPS 900 GB/s 700W SXM6 ¥28-40万³

¹ Dense Tensor Core 算力(无稀疏加速);稀疏加速下标称值翻倍
² 2025-2026 年市场参考价,实际价格因供货、渠道、批量波动极大
³ B 系列截至 2026 年初仍在爬产阶段,供货紧张溢价高

主力型(性价比区间)

型号 显存 显存类型 带宽 FP16 Tensor NVLink TDP 形态 大致市场价 A100 SXM 80G 80 GB HBM2e 2.0 TB/s 312 TFLOPS 600 GB/s 400W SXM4 ¥6-10万 A100 PCIe 80G 80 GB HBM2e 2.0 TB/s 312 TFLOPS 600 GB/s 300W PCIe ¥5-8万 A100 SXM 40G 40 GB HBM2e 1.6 TB/s 312 TFLOPS 600 GB/s 400W SXM4 ¥4-6万 A800 SXM 80G 80 GB HBM2e 2.0 TB/s 312 TFLOPS 400 GB/s⁴ 400W SXM4 ¥6-10万 H800 SXM 80 GB HBM3 3.35 TB/s 495 TFLOPS 400 GB/s⁴ 700W SXM5 ¥15-22万

⁴ A800/H800 为中国特供型号,NVLink 带宽从原版的 600/900 GB/s 降至 400 GB/s,其余算力参数基本一致。详见下方出口管制章节。

推理型 / 轻量型

型号 显存 显存类型 带宽 FP16 INT8 NVLink TDP 形态 大致市场价 L40S 48 GB GDDR6 864 GB/s 362 TFLOPS 733 TOPS ❌ 350W PCIe ¥7-11万 L4 24 GB GDDR6 300 GB/s 121 TFLOPS 242 TOPS ❌ 72W PCIe ¥2-3.5万 A30 24 GB HBM2e 933 GB/s 165 TFLOPS 330 TOPS 600 GB/s 165W PCIe ¥2.5-4万 A16 4×16 GB GDDR6 4×200 GB/s — — ❌ 250W PCIe ¥2-3万

L40S 定位:不支持 NVLink 但算力可观,48GB 显存大,适合推理部署和中小模型微调。很多客户选择它做推理是因为单卡够用、功耗适中。

L4 定位:超低功耗,适合边缘推理和视频处理等轻量场景。

A16 定位:VDI/图形虚拟化专用,智算场景很少使用。


中国市场特殊背景:出口管制与特供型号

核心政策脉络

时间 事件 影响 2022.10 BIS 首轮出口管制 A100/H100 向中国出口受限,NVIDIA 推出 A800(NVLink 降至 400 GB/s) 2023.10 BIS 更新规则 H100/H800 也受限,算力密度+互联带宽双重限制 2024-2025 规则持续收紧 连 A800/H800 也进入灰色地带,中国客户转向存量卡+替代方案

A800 vs A100 的差异

对比项 A100 80G A800 80G 显存 80GB HBM2e 80GB HBM2e(完全相同) FP16 算力 312 TFLOPS 312 TFLOPS(完全相同) NVLink 带宽 600 GB/s 400 GB/s(降低 33%) 其他 — 基本一致

结论:A800 算力没缩水,只有 NVLink 被砍。做单卡推理和小规模训练完全等价;做 8 卡大模型训练,通信带宽降低会影响 scaling efficiency(约 5-15% 性能损失,取决于模型并行方式)。

H800 vs H100 的差异

对比项 H100 SXM H800 SXM 显存 80GB HBM3 80GB HBM3 FP16 算力 495 TFLOPS 495 TFLOPS NVLink 带宽 900 GB/s 400 GB/s(降低 56%) 其他 — 基本一致

影响更大:H800 的 NVLink 降幅比 A800 更大(56% vs 33%)。8 卡训练场景下 H800 的通信瓶颈更明显。但市场实际使用中,很多客户配合 RoCE/InfiniBand 做跨机通信,机内通信走 PCIe,仍能发挥大部分算力。

当前市场格局(2025-2026)

  • A100/A800 市场存量充足,是性价比最高的主力卡

  • H100/H800 国内供货有限,价格含合规溢价

  • H200/B200 国内基本无法正规渠道采购

  • 部分客户通过海外(新加坡、中东等)部署来使用高端卡


训练 vs 推理的选卡逻辑速查

训练场景选卡

需求 推荐 原因 预算充足,大模型训练 H100 SXM / H200 算力最高,NVLink 全互联 性价比训练 A100 SXM 80G 成熟生态,成本低 50%+ 微调/中等模型 A100 PCIe / L40S 不需要 NVLink,成本更低 入门/实验 A100 40G / A30 价格低,适合小模型验证

关键规则

  1. 训练优先选 SXM 形态(NVLink 带宽是刚需)

  2. 80GB 显存 是大模型训练的及格线(70B 模型至少需要 4 卡 80G)

  3. BF16 支持是必须的(大模型训练标配)

推理场景选卡

需求 推荐 原因 大模型在线推理(70B+) H100/H200 显存大、带宽高,token/s 快 中等模型推理(7-30B) L40S / A100 性价比好,单卡搞定 小模型/边缘推理 L4 / A30 功耗低,部署灵活 批量推理/离线 L40S / A100 PCIe 成本优先,不需要 NVLink

关键规则

  1. 推理是带宽瓶颈场景,HBM 带宽比算力更重要

  2. 推理不需要 NVLink(单卡独立服务)

  3. L40S 的 GDDR6 带宽(864 GB/s)对比 A100 的 HBM2e(2 TB/s)有明显差距,跑大模型推理时 L40S 会比 A100 慢不少

"哪些卡更容易租出去?"

型号 租赁热度 原因 H100 SXM ⭐⭐⭐⭐⭐ 需求远超供给,训练刚需 A100 80G ⭐⭐⭐⭐ 性价比之王,训练+推理通吃 H800 SXM ⭐⭐⭐⭐ 国内 H100 替代,需求旺盛 A800 80G ⭐⭐⭐ 国内主力,量大但竞争也大 L40S ⭐⭐⭐ 推理需求驱动,但供给充足 L4 ⭐⭐ 轻量场景,单价低,利润薄 A30/A16 ⭐ 小众,流通性差

商业洞察:H100 的租金是 A100 的 2-3 倍,但成本只高 1.5-2 倍,高端卡的利润率反而更高。A100 虽然是"安全选择",但市场竞争激烈,价格战严重。


"官方参数强"与"市场好卖"为什么不一致?

几个典型例子:

  1. L40S 参数漂亮(362 TFLOPS FP16)但推理不如 A100——因为 GDDR6 带宽只有 A100 HBM2e 的 43%,大模型推理跑 token generation 是带宽瓶颈

  2. H100 PCIe 算力比 A100 SXM 强——但没有 NVLink,做多卡训练效率反而不如 A100 SXM

  3. A800 参数和 A100 几乎一样——但因为"合规不确定性",部分客户不敢买,流动性打折扣

  4. H200 算力和 H100 一样——但 141GB 显存让它在推理市场溢价明显

结论:选卡不能只看算力数字,要结合 显存带宽 × 互联能力 × 合规状态 × 市场流通性 综合判断。


哪些卡受供货/合规/交期影响更大?

影响维度 受影响最大的卡 说明 美国出口管制 H100, H200, B200, B100 无法正规进入中国市场 供应紧张 B200, B100, H200 新品爬产期,全球供不应求 交期长 H100 SXM (8 卡整机) 整机交付通常 8-16 周 渠道复杂 A800, H800 合规灰色地带,渠道商鱼龙混杂 价格波动大 A100 80G 存量市场,价格随供需剧烈波动


GPU 世代演进路线

Ampere (2020)          Hopper (2022)          Blackwell (2024-2025)─────────────          ─────────────          ──────────────────────A100 (80G HBM2e)  →    H100 (80G HBM3)  →    B200 (192G HBM3e)                       H200 (141G HBM3e) →    B100 (192G HBM3e)                       FP16: 312T             FP16: 495T             FP16: 1125TNVLink: 600GB/s        NVLink: 900GB/s        NVLink: 1800GB/s                       新增: FP8, Transformer  新增: FP4, 第二代                       Engine                  Transformer Engine

趋势判断:每代算力约 2-3 倍提升,显存带宽约 1.5-2 倍提升。Blackwell 世代的杀手特性是 FP4 支持和更强大的推理能力。


快速查表:一张卡值不值得买?

用这个清单快速判断:

□ 客户要的是什么?(训练 / 推理 / 两者兼有)□ 预算是多少?(单卡 ¥3万以下 / ¥5-10万 / ¥10万+)□ 是否需要 NVLink?(8 卡大模型训练 → 必须)□ 是否受出口管制?(H100/H200/B200 → 中国无法正规采购)□ 当前市场存量如何?(A100 存量充足 / H100 紧缺)□ 回本周期是否可接受?(通常要求 12-18 个月内)□ 售后和保修谁负责?(原厂 / 渠道商 / 无)

学习时重点关注

  1. 训练和推理为什么会偏好不同 GPU? → 训练瓶颈在算力+互联,推理瓶颈在显存带宽

  2. "官方参数强"与"市场好卖"为什么不一致? → 实际性能受带宽、互联、功耗、合规等多因素制约

  3. 哪些卡受供货/合规/交期影响更大? → 高端卡(H100+)受出口管制,新品受产能限制