AI下一帧 EP010 | Transformer: 99%的人假装听懂的东西 - AI下一帧

前游戏开发者，现海外云厂商架构师 [反向弯曲] 主理的 [AI×游戏] 播客！

帮助互联网｜游戏从业人员拆解全球游戏 AI 前沿动态，深挖技术落地干货。

让你轻松拿捏行业脉搏，预判 AI + 游戏的 “下一帧”。

对未来好奇？速戳订阅！

小红书b站同名：反向弯曲

=====================================

「Most of us just pretend to understand Transformers.」——这是 Reddit 上一个机器学习从业者的自白，底下几百条回复纷纷+1。ChatGPT、Claude、Gemini、Stable Diffusion、Sora，这些 AI 产品的底层都是 Transformer，但 99% 的教程都在讲公式怎么算，却不讲为什么要这样设计。这期我换个讲法：不讲公式，从用户痛点入手，用人话把 Transformer 的核心思想讲明白。Q、K、V 到底是什么？多头注意力在干嘛？它又是怎么从处理文本扩展到图像、视频的？我会用图书馆找书、派对社交这些类比帮你建立直觉，还会聊聊 Vision Transformer、Swin、Stable Diffusion 里的 Cross-Attention，以及 Sora 背后的 DiT 架构。听完这期，你可能还是写不出代码，但至少在同事聊起这些的时候，你不用再装懂了。

=====================================

03:29 Transfomer到底在解决什么问题？

04:52 QKV那个让所有人都卡住的地方

09:00 自注意力机制

10:48 多头注意力机制

12:33 位置编码

13:40 前馈神经网络

15:00 GPT和BERT有什么区别？

19:38 Vision Transfomer

21:40 Stable Diffusion 和 Sora

24:30 总结容易误解的问题

26:54 Transfomer的升级之路