

循环训练成本:拆解递归模型的算力与显存账这期节目不讲新模型,而是专门拆解循环/递归 LLM 训练到底贵在哪。我们会用七种训练变体对比 shared weights、per-step loss、detach、instant update、truncation、checkpointing 各自改变了什么。你会听明白哪些方法在省激活、哪些只是在改梯度路径,以及为什么真正的显存下降来自 detach 配合 streaming backward。 00:00 问题与动机 02:22 整体方法地图 04:36 关键机制拆解 11:40 训练与推理流程 14:15 实验怎样支撑方法 16:38 图表导读 18:32 价值、局限与启发 Source: report | https://huskydoge.github.io/husky-blog/posts/recursive_models/loop-cost/
Claude Code:拆解生产级代码Agent方法空间这期聊的不是一个“更聪明”的新Agent,而是 Claude Code 这类可落地代码Agent到底怎么被工程化做出来。核心观点很明确:真正决定系统能不能用的,不只是模型推理,而是权限控制、上下文压缩、工具执行、失败恢复和状态持久化这些外部 harness。我们还会讲它为什么用极简 while-loop 搭配重型运行时设计,以及这对未来自主软件工程意味着什么。 00:00 背景与动机 02:05 方法全景 03:58 关键模块拆解 09:22 训练与闭环 10:48 实验支撑什么 12:21 图表导读 13:43 价值与局限 Source: paper | https://arxiv.org/pdf/2604.14228
Ouro:让大模型在隐空间循环推理这期聊一篇很有启发性的工作:不靠生成更长思维链,而是让同一组 Transformer 层在隐空间里反复执行,把“多步推理”前移到预训练阶段。它的关键设计是共享参数的循环结构、自适应退出 gate,以及专门按“多算一轮值不值”来训练 gate,让模型对简单题少算、对难题多想。实验最值得关注的结论是:loop 主要增强的不是知识存储,而是知识调用、组合与递归加工能力,也因此形成了参数规模、数据规模之外的第三个 scaling axis。 00:00 问题与动机 02:09 方法全景 03:52 关键机制拆解 08:12 训练与推理闭环 11:27 实验怎样支撑方法 14:22 图表导读 16:09 价值、局限与启发 Source: paper | https://arxiv.org/pdf/2510.25741
Flow Map LM:一步生成高质量文本这期聊一篇来自 KAIST 和 CMU 的新工作:它用连续 flow 取代离散扩散,把语言模型从“多步去噪”推进到“一步生成”。论文的关键发现是,少步生成效果差,不是因为并行生成不行,而是离散近似会破坏 token 间相关性。结果上,它在 LM1B 和 OpenWebText 上都显著提升了 few-step 生成质量,也挑战了“文本生成必须用离散噪声过程”的传统假设。 00:00 背景与动机 02:16 方法拆解 06:13 实验结果 13:51 图表导读 15:28 评价与讨论 17:51 延伸思考 Source: paper | https://arxiv.org/pdf/2602.16813
VideoFlexTok:用粗到细可变长token做视频生成这期介绍 Apple 和 EPFL 的 VideoFlexTok:它不再把视频固定切成同样多的 3D token,而是先用少量 token 表达语义、运动和场景结构,再逐步补细节。这样做能把视频生成模型的训练和推理成本显著降下来,甚至用小 5 到 10 倍的模型,做到接近甚至超过传统 tokenizer 的效果。我们还会讲清它为什么能同时兼顾长视频、生成质量和语义一致性,以及这种“先提纲、后润色”的 token 组织方式为什么值得关注。 00:00 背景与动机 02:56 方法拆解 06:56 实验深读 14:42 图表导读 16:32 评价与讨论 19:16 延伸思考 Source: paper | https://arxiv.org/pdf/2604.12887
Nucleus-Image:用稀疏MoE兼顾文生图质量与效率这期聊 Nucleus AI 的 Nucleus-Image,看看它如何把 170 亿参数的 Diffusion Transformer 做成稀疏 MoE,并把单次激活压到约 20 亿。核心亮点是 decoupled routing 和 Expert-Choice Routing,让扩散模型里的专家分工不只看时间步,而能更稳定地按内容路由。我们也会讲它在 GenEval、DPG-Bench、OneIG-Bench 上为什么有竞争力,以及这条 sparse MoE 路线为何可能成为图像生成的新 scaling 方向。 00:00 背景与动机 02:10 方法拆解 06:17 实验结果解读 12:42 图表导读 14:23 评价与讨论 16:22 延伸思考 Source: paper | https://arxiv.org/pdf/2604.12163
CAE:先补语义表示再重建图像这期讲一篇把 Masked Image Modeling 拆成“编码—表示预测—重建”三段的工作:CAE。它的核心不是直接猜像素,而是先在 latent space 里预测被遮挡 patch 的语义表示,再用 decoder 完成重建。实验上它在 ADE20K 和 COCO 等 dense tasks 上稳定超过 MAE,说明这种“先补语义,再做重建”的设计更能学到适合迁移的表征。 00:00 背景与动机 01:58 方法拆解 04:46 实验结果解读 12:01 图表导读 13:28 评价与讨论 15:37 延伸思考 Source: paper | https://arxiv.org/pdf/2202.03026
I-JEPA:在表征空间预测图像语义这期聊 Meta 等提出的 I-JEPA:不用依赖复杂数据增强,也不做像素重建,而是用图像上下文去预测目标区域的表征。它抓住了自监督学习里的一个关键新思路——直接学“语义级”表示,因此在线性评估、低标注迁移和多项下游任务上表现很强。我们还会重点拆解它为什么有效:三模块架构、masking 策略、EMA teacher,以及“预测表征而不是像素”到底改变了什么。 00:00 背景与动机 02:23 方法拆解 05:15 实验结果解读 12:55 图表导读 14:18 评价与讨论 16:23 延伸思考 Source: paper | https://arxiv.org/pdf/2301.08243
CLIP:用自然语言监督学通用视觉这期讲OpenAI的CLIP,如何用4亿图文对替代固定标签训练视觉模型。它把图片和文本映射到同一空间,用对比学习直接实现强大的zero-shot识别。我们还会讲清它为何是视觉领域的范式转折,以及它的能力边界与现实问题。 00:00 背景与动机 01:48 方法拆解 04:21 实验结果深读 09:37 图表导读 11:08 评价与讨论 12:53 延伸思考 Source: paper | https://arxiv.org/pdf/2103.00020
SigLIP 2:统一配方升级多语言视觉编码器这期聊 Google DeepMind 的 SigLIP 2,如何把 SigLIP、captioning pretraining、self-distillation 和 masked prediction 合成一套统一训练方案。它不只提升 zero-shot 分类和图文检索,还显著增强定位、分割、深度估计和 OCR 等细颗粒度能力。我们也会重点讲它为什么能在英文性能、多语言泛化和稠密特征之间取得更好的平衡。 00:00 背景与动机 02:04 方法拆解 05:58 实验结果深读 14:40 图表导读 16:11 评价与讨论 18:18 延伸思考 Source: paper | https://arxiv.org/pdf/2502.14786
MAE:高遮挡重建学会视觉表征这期讲清楚 MAE 怎么把 NLP 里的 masked modeling 成功搬到视觉领域:随机遮掉 75% 图像,只让编码器看可见 patch,再用轻量解码器补全。你会理解它为什么用极简的像素重建目标,却能在分类、检测和分割迁移上全面超过监督预训练。也会看到这篇论文真正厉害的地方,不只是效果强,而是重新定义了视觉自监督的主流路线。 00:00 背景与动机 01:53 方法拆解 04:27 实验结果深读 12:41 图表导读 13:53 评价与讨论 15:54 延伸思考 Source: paper | https://arxiv.org/pdf/2111.06377
DINOv3:用Gram锚定拯救稠密视觉特征这期聊 DINOv3 怎么点破一个关键问题:自监督视觉模型越做越大,分类更强了,但分割、深度、跟踪这些依赖 patch 细节的稠密特征反而会退化。它的核心招式是 Gram anchoring,不强行对齐特征值,而是锁住 patch 之间的相似结构,让局部几何关系不散。结果也很硬:ADE20k、NYUv2、DAVIS、COCO 等任务全面提升,说明大规模自监督视觉模型第一次更系统地解决了 dense feature 失真问题。 00:00 背景与动机 02:03 方法拆解 05:09 实验结果深读 11:44 图表导读 13:11 评价与讨论 15:05 延伸思考 Source: paper | https://arxiv.org/pdf/2508.10104
DINOv2:无监督学出通用视觉特征这期聊 Meta 和 Inria 的 DINOv2:只靠高质量无标注图像和自监督学习,能否训练出像 foundation model 一样开箱即用的视觉特征。我们会拆解它的三大关键:LVD-142M curated 数据、结合全局与 patch 的训练目标,以及把大模型能力蒸馏给小模型的规模化工程。更重要的是看它为什么能在分类、检索、分割、深度和鲁棒性上全面超过不少弱监督方法,并重新证明“纯视觉路线”依然大有可为。 00:00 背景与动机 01:54 方法拆解 04:44 实验结果解读 11:36 图表导读 12:42 评价与讨论 14:27 延伸思考 Source: paper | https://arxiv.org/pdf/2304.07193
Fast-WAM:训练学世界,测试直接出动作这期聊一篇直击关键问题的机器人论文:世界动作模型真的需要在测试时先“想象未来视频”再行动吗?Fast-WAM给出的答案是,不一定——真正有效的关键,主要来自训练时的视频共训练,而不是测试时显式生成未来。它在仿真和真实世界里都证明了:不脑补未来画面,也能保持强性能,还把推理延迟大幅降到可实时部署。 00:00 背景与动机 02:23 方法拆解 06:10 实验结果解读 12:55 图表导读 14:48 评价与讨论 17:46 延伸思考 Source: paper | https://arxiv.org/pdf/2603.16666
LLM知识库:把资料编译成可演化个人WikiKarpathy 展示了一种用 LLM 搭建个人知识库的工作流:把论文、网页、代码和图片统一摄取,再自动编译成带链接、分类和概念条目的 Markdown wiki。这个系统不只是拿来检索,还能在 Obsidian 里持续生成问答、文档、幻灯片和图表,并把输出反向归档进知识库。重点不在某个单点工具,而在于让 LLM 从聊天助手升级为“知识操作系统”,持续整理、维护并扩展你的研究积累。 00:00 主题引入 01:14 从原始资料到知识编译 03:19 Obsidian 作为前端 04:51 当知识库大到能问复杂问题 06:31 输出不只是答案 08:02 用 LLM 给知识库做体检 09:18 辅助工具与搜索能力 10:50 从上下文到权重 12:07 更大的产品想象 13:10 简短总结 Source: twitter | https://x.com/karpathy/status/2039805659525644595?s=46