EP02 ｜ GPU基础：看完这集你能看懂参数表了 - 算力这门生意（AI）

节目简介
显存容量、显存带宽、NVLink、计算精度……这些参数到底决定了什么？为什么训练和推理要选不同的卡？A100、H100、H200、L40S 各自适合干什么？零基础听完就能建立选卡直觉。

本期要点

🔧 GPU 六大核心参数详解：显存容量（工作台大小）、显存带宽（传送带速度）、计算精度、NVLink（工位间直达通道）、功耗散热、PCIe vs SXM 形态
🆚 训练 vs 推理选卡逻辑：训练看算力+互联，推理看显存带宽——完全不同
📊 主流 GPU 定位速览：A100（全能主力）、H100（新一代训练王）、H200（大显存版H100）、L40S（推理性价比之选）
🇨🇳 中国市场特殊背景：A800/H800 是什么、为什么存在、和原版差在哪
⚠️ 一个反直觉的结论：官方参数强的卡不一定市场上好卖（L40S vs A100 案例）
✅ 一张卡值不值得买的快速判断清单

推荐收听场景 要采购 GPU 之前必听，帮你建立基本判断力

这一页要解决什么问题

搞清楚不同 GPU 的：

适用场景
核心参数
采购价值
租赁价值

先理解的核心参数

1. 显存容量（VRAM）

决定能跑多大模型、能否容纳更大 batch
7B 模型约需 14-28GB（取决于精度），70B 模型需多卡
经验法则：模型参数量 × 2~4（FP16 下约 ×2，训练开销约 ×4）= 显存需求

2. 显存带宽（Memory Bandwidth）

大模型推理是典型 内存带宽瓶颈（每生成一个 token 都要读一遍全部权重）
HBM3 > HBM2e >> GDDR6（代际差距巨大）
推理场景下，带宽直接决定 token 生成速度

3. 计算精度与算力

精度用途说明 FP32 传统训练 32 位浮点，精度最高但慢 TF32 PyTorch 默认 19 位，NVIDIA 专用，性能好于 FP32 FP16 训练常用 16 位，需配合 loss scaling BF16 大模型训练首选 16 位，动态范围同 FP32，精度略低 FP8 新一代推理/训练 Hopper 架构起支持，吞吐翻倍 INT8 推理量化精度损失小，速度快 INT4 极端推理压缩需要量化框架支持

关键判断：选卡时关注 FP16/BF16 Tensor Core 算力，这是训练的主力指标；推理则额外关注 FP8/INT8。

4. 卡间互联

互联方式带宽说明 PCIe Gen4 x16 ~32 GB/s 通用接口，带宽有限 PCIe Gen5 x16 ~64 GB/s 新一代，但卡间通信仍不够 NVLink 3.0 600 GB/s A100，卡对卡直连 NVLink 4.0 900 GB/s H100/H200 NVLink 5.0 1800 GB/s B200，带宽翻倍 NVSwitch — 多卡全互联的交换芯片（4卡/8卡/更多）

判断要点：8 卡训练场景（如 LLM），NVLink 是刚需。PCIe 版卡做小模型推理够用，但做训练会浪费算力等通信。

5. 功耗与散热

TDP（热设计功耗）直接影响机柜供电、散热方案和托管成本
高端 SXM 卡（如 H100 SXM 700W）需要专用散热（液冷或高风量）
一台 8×H100 SXM 服务器总功耗约 10-12kW（含 CPU、内存等）

6. 形态

PCIe 卡：标准插卡，通用性强，散热简单，性能稍低
SXM 模块：NVIDIA 专用，需要 HGX 基板，NVLink 全互联，性能最高

主流数据中心 GPU 对比表

高端训练型

型号显存显存类型带宽 FP16 Tensor¹ BF16 Tensor¹ FP8 Tensor¹ NVLink TDP 形态大致市场价² H100 SXM 80 GB HBM3 3.35 TB/s 495 TFLOPS 495 TFLOPS 990 TFLOPS 900 GB/s 700W SXM5 ¥18-25万 H100 PCIe 80 GB HBM3 2 TB/s 268 TFLOPS 268 TFLOPS 536 TFLOPS 600 GB/s 350W PCIe ¥15-20万 H200 SXM 141 GB HBM3e 4.8 TB/s 495 TFLOPS 495 TFLOPS 990 TFLOPS 900 GB/s 700W SXM5 ¥25-35万 B200 192 GB HBM3e 8 TB/s 1125 TFLOPS 1125 TFLOPS 2250 TFLOPS 1800 GB/s 1000W SXM6 ¥30-45万³ B100 192 GB HBM3e 8 TB/s 875 TFLOPS 875 TFLOPS 1750 TFLOPS 900 GB/s 700W SXM6 ¥28-40万³

¹ Dense Tensor Core 算力（无稀疏加速）；稀疏加速下标称值翻倍
² 2025-2026 年市场参考价，实际价格因供货、渠道、批量波动极大
³ B 系列截至 2026 年初仍在爬产阶段，供货紧张溢价高

主力型（性价比区间）

型号显存显存类型带宽 FP16 Tensor NVLink TDP 形态大致市场价 A100 SXM 80G 80 GB HBM2e 2.0 TB/s 312 TFLOPS 600 GB/s 400W SXM4 ¥6-10万 A100 PCIe 80G 80 GB HBM2e 2.0 TB/s 312 TFLOPS 600 GB/s 300W PCIe ¥5-8万 A100 SXM 40G 40 GB HBM2e 1.6 TB/s 312 TFLOPS 600 GB/s 400W SXM4 ¥4-6万 A800 SXM 80G 80 GB HBM2e 2.0 TB/s 312 TFLOPS 400 GB/s⁴ 400W SXM4 ¥6-10万 H800 SXM 80 GB HBM3 3.35 TB/s 495 TFLOPS 400 GB/s⁴ 700W SXM5 ¥15-22万

⁴ A800/H800 为中国特供型号，NVLink 带宽从原版的 600/900 GB/s 降至 400 GB/s，其余算力参数基本一致。详见下方出口管制章节。

推理型 / 轻量型

型号显存显存类型带宽 FP16 INT8 NVLink TDP 形态大致市场价 L40S 48 GB GDDR6 864 GB/s 362 TFLOPS 733 TOPS ❌ 350W PCIe ¥7-11万 L4 24 GB GDDR6 300 GB/s 121 TFLOPS 242 TOPS ❌ 72W PCIe ¥2-3.5万 A30 24 GB HBM2e 933 GB/s 165 TFLOPS 330 TOPS 600 GB/s 165W PCIe ¥2.5-4万 A16 4×16 GB GDDR6 4×200 GB/s — — ❌ 250W PCIe ¥2-3万

L40S 定位：不支持 NVLink 但算力可观，48GB 显存大，适合推理部署和中小模型微调。很多客户选择它做推理是因为单卡够用、功耗适中。
L4 定位：超低功耗，适合边缘推理和视频处理等轻量场景。
A16 定位：VDI/图形虚拟化专用，智算场景很少使用。

中国市场特殊背景：出口管制与特供型号

核心政策脉络

时间事件影响 2022.10 BIS 首轮出口管制 A100/H100 向中国出口受限，NVIDIA 推出 A800（NVLink 降至 400 GB/s） 2023.10 BIS 更新规则 H100/H800 也受限，算力密度+互联带宽双重限制 2024-2025 规则持续收紧连 A800/H800 也进入灰色地带，中国客户转向存量卡+替代方案

A800 vs A100 的差异

对比项 A100 80G A800 80G 显存 80GB HBM2e 80GB HBM2e（完全相同） FP16 算力 312 TFLOPS 312 TFLOPS（完全相同） NVLink 带宽 600 GB/s 400 GB/s（降低 33%）其他 — 基本一致

结论：A800 算力没缩水，只有 NVLink 被砍。做单卡推理和小规模训练完全等价；做 8 卡大模型训练，通信带宽降低会影响 scaling efficiency（约 5-15% 性能损失，取决于模型并行方式）。

H800 vs H100 的差异

对比项 H100 SXM H800 SXM 显存 80GB HBM3 80GB HBM3 FP16 算力 495 TFLOPS 495 TFLOPS NVLink 带宽 900 GB/s 400 GB/s（降低 56%）其他 — 基本一致

影响更大：H800 的 NVLink 降幅比 A800 更大（56% vs 33%）。8 卡训练场景下 H800 的通信瓶颈更明显。但市场实际使用中，很多客户配合 RoCE/InfiniBand 做跨机通信，机内通信走 PCIe，仍能发挥大部分算力。

当前市场格局（2025-2026）

A100/A800 市场存量充足，是性价比最高的主力卡
H100/H800 国内供货有限，价格含合规溢价
H200/B200 国内基本无法正规渠道采购
部分客户通过海外（新加坡、中东等）部署来使用高端卡

训练 vs 推理的选卡逻辑速查

训练场景选卡

需求推荐原因预算充足，大模型训练 H100 SXM / H200 算力最高，NVLink 全互联性价比训练 A100 SXM 80G 成熟生态，成本低 50%+ 微调/中等模型 A100 PCIe / L40S 不需要 NVLink，成本更低入门/实验 A100 40G / A30 价格低，适合小模型验证

关键规则：

训练优先选 SXM 形态（NVLink 带宽是刚需）
80GB 显存 是大模型训练的及格线（70B 模型至少需要 4 卡 80G）
BF16 支持是必须的（大模型训练标配）

推理场景选卡

需求推荐原因大模型在线推理（70B+） H100/H200 显存大、带宽高，token/s 快中等模型推理（7-30B） L40S / A100 性价比好，单卡搞定小模型/边缘推理 L4 / A30 功耗低，部署灵活批量推理/离线 L40S / A100 PCIe 成本优先，不需要 NVLink

关键规则：

推理是带宽瓶颈场景，HBM 带宽比算力更重要
推理不需要 NVLink（单卡独立服务）
L40S 的 GDDR6 带宽（864 GB/s）对比 A100 的 HBM2e（2 TB/s）有明显差距，跑大模型推理时 L40S 会比 A100 慢不少

"哪些卡更容易租出去？"

型号租赁热度原因 H100 SXM ⭐⭐⭐⭐⭐ 需求远超供给，训练刚需 A100 80G ⭐⭐⭐⭐ 性价比之王，训练+推理通吃 H800 SXM ⭐⭐⭐⭐ 国内 H100 替代，需求旺盛 A800 80G ⭐⭐⭐ 国内主力，量大但竞争也大 L40S ⭐⭐⭐ 推理需求驱动，但供给充足 L4 ⭐⭐ 轻量场景，单价低，利润薄 A30/A16 ⭐ 小众，流通性差

商业洞察：H100 的租金是 A100 的 2-3 倍，但成本只高 1.5-2 倍，高端卡的利润率反而更高。A100 虽然是"安全选择"，但市场竞争激烈，价格战严重。

"官方参数强"与"市场好卖"为什么不一致？

几个典型例子：

L40S 参数漂亮（362 TFLOPS FP16）但推理不如 A100——因为 GDDR6 带宽只有 A100 HBM2e 的 43%，大模型推理跑 token generation 是带宽瓶颈
H100 PCIe 算力比 A100 SXM 强——但没有 NVLink，做多卡训练效率反而不如 A100 SXM
A800 参数和 A100 几乎一样——但因为"合规不确定性"，部分客户不敢买，流动性打折扣
H200 算力和 H100 一样——但 141GB 显存让它在推理市场溢价明显

结论：选卡不能只看算力数字，要结合 显存带宽 × 互联能力 × 合规状态 × 市场流通性 综合判断。

哪些卡受供货/合规/交期影响更大？

影响维度受影响最大的卡说明美国出口管制 H100, H200, B200, B100 无法正规进入中国市场供应紧张 B200, B100, H200 新品爬产期，全球供不应求交期长 H100 SXM (8 卡整机) 整机交付通常 8-16 周渠道复杂 A800, H800 合规灰色地带，渠道商鱼龙混杂价格波动大 A100 80G 存量市场，价格随供需剧烈波动

GPU 世代演进路线

Ampere (2020)          Hopper (2022)          Blackwell (2024-2025)─────────────          ─────────────          ──────────────────────A100 (80G HBM2e)  →    H100 (80G HBM3)  →    B200 (192G HBM3e)                       H200 (141G HBM3e) →    B100 (192G HBM3e)                       FP16: 312T             FP16: 495T             FP16: 1125TNVLink: 600GB/s        NVLink: 900GB/s        NVLink: 1800GB/s                       新增: FP8, Transformer  新增: FP4, 第二代                       Engine                  Transformer Engine

趋势判断：每代算力约 2-3 倍提升，显存带宽约 1.5-2 倍提升。Blackwell 世代的杀手特性是 FP4 支持和更强大的推理能力。

快速查表：一张卡值不值得买？

用这个清单快速判断：

□ 客户要的是什么？（训练 / 推理 / 两者兼有）□ 预算是多少？（单卡 ¥3万以下 / ¥5-10万 / ¥10万+）□ 是否需要 NVLink？（8 卡大模型训练 → 必须）□ 是否受出口管制？（H100/H200/B200 → 中国无法正规采购）□ 当前市场存量如何？（A100 存量充足 / H100 紧缺）□ 回本周期是否可接受？（通常要求 12-18 个月内）□ 售后和保修谁负责？（原厂 / 渠道商 / 无）

学习时重点关注

训练和推理为什么会偏好不同 GPU？ → 训练瓶颈在算力+互联，推理瓶颈在显存带宽
"官方参数强"与"市场好卖"为什么不一致？ → 实际性能受带宽、互联、功耗、合规等多因素制约
哪些卡受供货/合规/交期影响更大？ → 高端卡（H100+）受出口管制，新品受产能限制