这期节目不讲新模型，而是专门拆解循环/递归 LLM 训练到底贵在哪。我们会用七种训练变体对比 shared weights、per-step loss、detach、instant update、truncation、checkpointing 各自改变了什么。你会听明白哪些方法在省激活、哪些只是在改梯度路径，以及为什么真正的显存下降来自 detach 配合 streaming backward。
00:00 问题与动机
02:22 整体方法地图
04:36 关键机制拆解
11:40 训练与推理流程
14:15 实验怎样支撑方法
16:38 图表导读
18:32 价值、局限与启发
Source: report | https://huskydoge.github.io/husky-blog/posts/recursive_models/loop-cost/

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AI_SUMMARIZE_EPISODE

Anything to Podcast

循环训练成本：拆解递归模型的算力与显存账

69cfa0a7b977fb2c47086427/lrzn_WC6LGMwCHXXxfshkNtNkGjg.mp3