Vol. 2 二十个字让寒武纪涨停！DeepSeek V3.1背后的芯片密码与精度革命

AI 前沿漫谈

24分钟 ·8个月前

7

·

0

【内容索引】

00:00:02 - DeepSeek V3.1发布引爆芯片市场：DeepSeek官方置顶评论提到UE8M0FP8针对下一代国产芯片设计，短短二十几个字引爆中国芯片市场，寒武纪单日涨停20%创历史新高。

00:01:03 - 浮点精度技术背景介绍：这些看似乱码的术语实际上是计算机硬件层面的浮点数精度格式，将讲述计算机浮点精度的前世今生，涉及天才数学家的坚持和大公司博弈。

00:01:57 - 早期浮点运算混乱时代：20世纪60-70年代，不同厂商有各自的浮点运算标准，程序在不同机器间移植困难，甚至导致1996年阿丽亚娜5号火箭因浮点运算错误而坠毁。

00:05:01 - 英特尔与威廉·卡汉的合作：1976年英特尔为8086设计浮点协处理器，邀请斯坦福大学教授威廉·卡汉担任顾问，卡汉整合优秀浮点特性打造出8087协处理器的技术基础。

00:07:06 - IEEE 754标准制定过程：1977年旧金山会议上各大厂商代表聚集，卡汉草拟KCS技术规格，争论焦点集中在数字下溢处理上，DEC主张直接清零，KCS采用渐进式下移方案。

00:09:11 - 技术之争的转折点：加州大学伯克利分校研究生乔治·泰勒用基于KCS的加速板与DEC原版硬件比拼性能，证明了高速KCS浮点运算的可能性，DEC技术论据不攻自破。

00:11:47 - IEEE 754标准的历史意义：1985年IEEE 754标准正式获批，MIT创始人建议外国访客参观美国两大奇观：大峡谷和IEEE 754会议草案，感叹委员会成员的利他精神。

00:12:05 - 浮点数工作原理详解：用财富记录比喻解释浮点数原理，浮点数采用科学计数法，用32位表示：1位符号位、8位指数位、23位尾数位，能表示极大和极小的数。

00:14:52 - AI时代精度需求变化：随着模型规模增大，FP32过于臃肿，研究发现AI大模型对数值范围要求比精度要求更严格，神经网络训练像雕塑而非钟表制造，催生FP16应用。

00:16:15 - 谷歌BF16解决方案：2017年谷歌提出Brain Float 16，保持8位指数位但截断尾数到7位，具有与FP32相同指数范围但降低精度，对神经网络是完美权衡。

00:17:05 - 英伟达的技术回应：英伟达在V100上推出TF32格式（19位：1位符号+8位指数+10位尾数），提高计算速度但存储仍用32位，直到A100时代才全面拥抱BF16。

00:18:39 - 英伟达FP8创新：2024年英伟达推出Blackwell架构的FP8支持，包含E4M3和E5M2两种格式，并创新MX FP8技术，将张量分为32元素块，每块有独立缩放因子。

00:20:00 - DeepSeek UE8M0FP8技术解析：DeepSeek的UE8M0是缩放因子格式（无符号8位指数0位尾数），只能表达2的整数次幂，FP8是数据格式，具有硬件友好、动态范围大、带宽优化三大优势。

00:22:34 - 国产芯片技术突破意义：国内软硬件厂商形成协同技术生态，类似美国Wintel联盟，DeepSeek与国产芯片厂商深度绑定，在技术标准、性能优化和生态护城河方面具有深远产业意义。

00:24:05 - 技术发展历史总结：从IEEE标准之争到AI时代精度革命，再到国产芯片突围，技术背后没有绝对最优解，只有特定约束下的最佳解，展望国产芯片未来发展前景。

【本期相关】

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

Per-Tensor and Per-Block Scaling Strategies for Effective FP8 Training

An Interview with the Old Man of Floating-Point

Intel And Floating Point

Floating-Point 8: An Introduction to Efficient, Lower-Precision AI Training

适用于有效 FP8 训练的按张量和按块扩展策略

【录制时间】

2025年08月24日

如果你喜欢我的节目，欢迎你分享到更多的地方，也欢迎你在评论区留言交流。

在小宇宙打开