这期节目不讲新模型,而是专门拆解循环/递归 LLM 训练到底贵在哪。我们会用七种训练变体对比 shared weights、per-step loss、detach、instant update、truncation、checkpointing 各自改变了什么。你会听明白哪些方法在省激活、哪些只是在改梯度路径,以及为什么真正的显存下降来自 detach 配合 streaming backward。
00:00 问题与动机
02:22 整体方法地图
04:36 关键机制拆解
11:40 训练与推理流程
14:15 实验怎样支撑方法
16:38 图表导读
18:32 价值、局限与启发
Source: report | huskydoge.github.io
