AI下一帧 EP010 | Transformer: 99%的人假装听懂的东西AI下一帧

AI下一帧 EP010 | Transformer: 99%的人假装听懂的东西

36分钟 ·
播放数153
·
评论数10

前游戏开发者,现海外云厂商架构师 [反向弯曲] 主理的 [AI×游戏] 播客!

帮助互联网|游戏从业人员 拆解全球游戏 AI 前沿动态,深挖技术落地干货。

让你轻松拿捏行业脉搏,预判 AI + 游戏的 “下一帧”。

对未来好奇?速戳订阅!

小红书b站同名:反向弯曲

=====================================

「Most of us just pretend to understand Transformers.」——这是 Reddit 上一个机器学习从业者的自白,底下几百条回复纷纷+1。ChatGPT、Claude、Gemini、Stable Diffusion、Sora,这些 AI 产品的底层都是 Transformer,但 99% 的教程都在讲公式怎么算,却不讲为什么要这样设计。这期我换个讲法:不讲公式,从用户痛点入手,用人话把 Transformer 的核心思想讲明白。Q、K、V 到底是什么?多头注意力在干嘛?它又是怎么从处理文本扩展到图像、视频的?我会用图书馆找书、派对社交这些类比帮你建立直觉,还会聊聊 Vision Transformer、Swin、Stable Diffusion 里的 Cross-Attention,以及 Sora 背后的 DiT 架构。听完这期,你可能还是写不出代码,但至少在同事聊起这些的时候,你不用再装懂了。

=====================================

03:29 Transfomer到底在解决什么问题?

04:52 QKV那个让所有人都卡住的地方

09:00 自注意力机制

10:48 多头注意力机制

12:33 位置编码

13:40 前馈神经网络

15:00 GPT和BERT有什么区别?

19:38 Vision Transfomer

21:40 Stable Diffusion 和 Sora

24:30 总结容易误解的问题

26:54 Transfomer的升级之路

=====================================

参考链接:

背景音乐:

🎵感冒國際語錄

展开Show Notes
風旅
風旅
2026.2.22
背景音乐太吵了
反向弯曲
:
下次我弄的bgm轻点,感谢意见
胡十锦
胡十锦
4天前
bgm太吵了,有点违和
反向弯曲
:
这一期bgm有点吵,后面的会柔和不少,感谢
LJC-
LJC-
2026.3.03
确实背景音乐太吵了,很难专心听进去,建议不要背景音乐
反向弯曲
:
好的,我晚点上传新的版本,感谢建议
downloader
downloader
2026.2.24
喜欢你选的音乐!你怎么找和选的?
反向弯曲
:
感谢,我一般去suno找。后面会尝试自己做
作为一个算子开发工程师其实有感触:其实我感觉大多数教程只会讲selfattention,介绍乘法公式,简单介绍原理 相似度 就完了。但是其实在应用上 最重要的是kv cache管理。只会编码器的学者也好 工程师也好,其实很多时候写个torch.nn.attention也就够了,但是对于nlp来说文字输出才是重头戏。
反向弯曲
:
非常同意