【内容索引】
- 00:00:02 - DeepSeek V3.1发布引爆芯片市场:DeepSeek官方置顶评论提到UE8M0FP8针对下一代国产芯片设计,短短二十几个字引爆中国芯片市场,寒武纪单日涨停20%创历史新高。
- 00:01:03 - 浮点精度技术背景介绍:这些看似乱码的术语实际上是计算机硬件层面的浮点数精度格式,将讲述计算机浮点精度的前世今生,涉及天才数学家的坚持和大公司博弈。
- 00:01:57 - 早期浮点运算混乱时代:20世纪60-70年代,不同厂商有各自的浮点运算标准,程序在不同机器间移植困难,甚至导致1996年阿丽亚娜5号火箭因浮点运算错误而坠毁。
- 00:05:01 - 英特尔与威廉·卡汉的合作:1976年英特尔为8086设计浮点协处理器,邀请斯坦福大学教授威廉·卡汉担任顾问,卡汉整合优秀浮点特性打造出8087协处理器的技术基础。
- 00:07:06 - IEEE 754标准制定过程:1977年旧金山会议上各大厂商代表聚集,卡汉草拟KCS技术规格,争论焦点集中在数字下溢处理上,DEC主张直接清零,KCS采用渐进式下移方案。
- 00:09:11 - 技术之争的转折点:加州大学伯克利分校研究生乔治·泰勒用基于KCS的加速板与DEC原版硬件比拼性能,证明了高速KCS浮点运算的可能性,DEC技术论据不攻自破。
- 00:11:47 - IEEE 754标准的历史意义:1985年IEEE 754标准正式获批,MIT创始人建议外国访客参观美国两大奇观:大峡谷和IEEE 754会议草案,感叹委员会成员的利他精神。
- 00:12:05 - 浮点数工作原理详解:用财富记录比喻解释浮点数原理,浮点数采用科学计数法,用32位表示:1位符号位、8位指数位、23位尾数位,能表示极大和极小的数。
- 00:14:52 - AI时代精度需求变化:随着模型规模增大,FP32过于臃肿,研究发现AI大模型对数值范围要求比精度要求更严格,神经网络训练像雕塑而非钟表制造,催生FP16应用。
- 00:16:15 - 谷歌BF16解决方案:2017年谷歌提出Brain Float 16,保持8位指数位但截断尾数到7位,具有与FP32相同指数范围但降低精度,对神经网络是完美权衡。
- 00:17:05 - 英伟达的技术回应:英伟达在V100上推出TF32格式(19位:1位符号+8位指数+10位尾数),提高计算速度但存储仍用32位,直到A100时代才全面拥抱BF16。
- 00:18:39 - 英伟达FP8创新:2024年英伟达推出Blackwell架构的FP8支持,包含E4M3和E5M2两种格式,并创新MX FP8技术,将张量分为32元素块,每块有独立缩放因子。
- 00:20:00 - DeepSeek UE8M0FP8技术解析:DeepSeek的UE8M0是缩放因子格式(无符号8位指数0位尾数),只能表达2的整数次幂,FP8是数据格式,具有硬件友好、动态范围大、带宽优化三大优势。
- 00:22:34 - 国产芯片技术突破意义:国内软硬件厂商形成协同技术生态,类似美国Wintel联盟,DeepSeek与国产芯片厂商深度绑定,在技术标准、性能优化和生态护城河方面具有深远产业意义。
- 00:24:05 - 技术发展历史总结:从IEEE标准之争到AI时代精度革命,再到国产芯片突围,技术背后没有绝对最优解,只有特定约束下的最佳解,展望国产芯片未来发展前景。
【本期相关】
DeepSeek-V3.1 发布,迈向 Agent 时代的第一步
Per-Tensor and Per-Block Scaling Strategies for Effective FP8 Training
An Interview with the Old Man of Floating-Point
Floating-Point 8: An Introduction to Efficient, Lower-Precision AI Training
【录制时间】
2025年08月24日
如果你喜欢我的节目,欢迎你分享到更多的地方,也欢迎你在评论区留言交流。
