Anything to Podcast | 小宇宙 - 听播客，上小宇宙

7已订阅

Anything to Podcast

慧慧不累

单集更新

节目详情

循环训练成本：拆解递归模型的算力与显存账
这期节目不讲新模型，而是专门拆解循环/递归 LLM 训练到底贵在哪。我们会用七种训练变体对比 shared weights、per-step loss、detach、instant update、truncation、checkpointing 各自改变了什么。你会听明白哪些方法在省激活、哪些只是在改梯度路径，以及为什么真正的显存下降来自 detach 配合 streaming backward。 00:00 问题与动机 02:22 整体方法地图 04:36 关键机制拆解 11:40 训练与推理流程 14:15 实验怎样支撑方法 16:38 图表导读 18:32 价值、局限与启发 Source: report | https://huskydoge.github.io/husky-blog/posts/recursive_models/loop-cost/
22分钟 · 2个月前
0
0
Claude Code：拆解生产级代码Agent方法空间
这期聊的不是一个“更聪明”的新Agent，而是 Claude Code 这类可落地代码Agent到底怎么被工程化做出来。核心观点很明确：真正决定系统能不能用的，不只是模型推理，而是权限控制、上下文压缩、工具执行、失败恢复和状态持久化这些外部 harness。我们还会讲它为什么用极简 while-loop 搭配重型运行时设计，以及这对未来自主软件工程意味着什么。 00:00 背景与动机 02:05 方法全景 03:58 关键模块拆解 09:22 训练与闭环 10:48 实验支撑什么 12:21 图表导读 13:43 价值与局限 Source: paper | https://arxiv.org/pdf/2604.14228
16分钟 · 2个月前
0
0
Ouro：让大模型在隐空间循环推理
这期聊一篇很有启发性的工作：不靠生成更长思维链，而是让同一组 Transformer 层在隐空间里反复执行，把“多步推理”前移到预训练阶段。它的关键设计是共享参数的循环结构、自适应退出 gate，以及专门按“多算一轮值不值”来训练 gate，让模型对简单题少算、对难题多想。实验最值得关注的结论是：loop 主要增强的不是知识存储，而是知识调用、组合与递归加工能力，也因此形成了参数规模、数据规模之外的第三个 scaling axis。 00:00 问题与动机 02:09 方法全景 03:52 关键机制拆解 08:12 训练与推理闭环 11:27 实验怎样支撑方法 14:22 图表导读 16:09 价值、局限与启发 Source: paper | https://arxiv.org/pdf/2510.25741
18分钟 · 2个月前
2
0
Flow Map LM：一步生成高质量文本
这期聊一篇来自 KAIST 和 CMU 的新工作：它用连续 flow 取代离散扩散，把语言模型从“多步去噪”推进到“一步生成”。论文的关键发现是，少步生成效果差，不是因为并行生成不行，而是离散近似会破坏 token 间相关性。结果上，它在 LM1B 和 OpenWebText 上都显著提升了 few-step 生成质量，也挑战了“文本生成必须用离散噪声过程”的传统假设。 00:00 背景与动机 02:16 方法拆解 06:13 实验结果 13:51 图表导读 15:28 评价与讨论 17:51 延伸思考 Source: paper | https://arxiv.org/pdf/2602.16813
20分钟 · 2个月前
0
0
VideoFlexTok：用粗到细可变长token做视频生成
这期介绍 Apple 和 EPFL 的 VideoFlexTok：它不再把视频固定切成同样多的 3D token，而是先用少量 token 表达语义、运动和场景结构，再逐步补细节。这样做能把视频生成模型的训练和推理成本显著降下来，甚至用小 5 到 10 倍的模型，做到接近甚至超过传统 tokenizer 的效果。我们还会讲清它为什么能同时兼顾长视频、生成质量和语义一致性，以及这种“先提纲、后润色”的 token 组织方式为什么值得关注。 00:00 背景与动机 02:56 方法拆解 06:56 实验深读 14:42 图表导读 16:32 评价与讨论 19:16 延伸思考 Source: paper | https://arxiv.org/pdf/2604.12887
22分钟 · 2个月前
0
0
Nucleus-Image：用稀疏MoE兼顾文生图质量与效率
这期聊 Nucleus AI 的 Nucleus-Image，看看它如何把 170 亿参数的 Diffusion Transformer 做成稀疏 MoE，并把单次激活压到约 20 亿。核心亮点是 decoupled routing 和 Expert-Choice Routing，让扩散模型里的专家分工不只看时间步，而能更稳定地按内容路由。我们也会讲它在 GenEval、DPG-Bench、OneIG-Bench 上为什么有竞争力，以及这条 sparse MoE 路线为何可能成为图像生成的新 scaling 方向。 00:00 背景与动机 02:10 方法拆解 06:17 实验结果解读 12:42 图表导读 14:23 评价与讨论 16:22 延伸思考 Source: paper | https://arxiv.org/pdf/2604.12163
18分钟 · 2个月前
0
0
CAE：先补语义表示再重建图像
这期讲一篇把 Masked Image Modeling 拆成“编码—表示预测—重建”三段的工作：CAE。它的核心不是直接猜像素，而是先在 latent space 里预测被遮挡 patch 的语义表示，再用 decoder 完成重建。实验上它在 ADE20K 和 COCO 等 dense tasks 上稳定超过 MAE，说明这种“先补语义，再做重建”的设计更能学到适合迁移的表征。 00:00 背景与动机 01:58 方法拆解 04:46 实验结果解读 12:01 图表导读 13:28 评价与讨论 15:37 延伸思考 Source: paper | https://arxiv.org/pdf/2202.03026
17分钟 · 2个月前
0
0
I-JEPA：在表征空间预测图像语义
这期聊 Meta 等提出的 I-JEPA：不用依赖复杂数据增强，也不做像素重建，而是用图像上下文去预测目标区域的表征。它抓住了自监督学习里的一个关键新思路——直接学“语义级”表示，因此在线性评估、低标注迁移和多项下游任务上表现很强。我们还会重点拆解它为什么有效：三模块架构、masking 策略、EMA teacher，以及“预测表征而不是像素”到底改变了什么。 00:00 背景与动机 02:23 方法拆解 05:15 实验结果解读 12:55 图表导读 14:18 评价与讨论 16:23 延伸思考 Source: paper | https://arxiv.org/pdf/2301.08243
18分钟 · 2个月前
3
0
CLIP：用自然语言监督学通用视觉
这期讲OpenAI的CLIP，如何用4亿图文对替代固定标签训练视觉模型。它把图片和文本映射到同一空间，用对比学习直接实现强大的zero-shot识别。我们还会讲清它为何是视觉领域的范式转折，以及它的能力边界与现实问题。 00:00 背景与动机 01:48 方法拆解 04:21 实验结果深读 09:37 图表导读 11:08 评价与讨论 12:53 延伸思考 Source: paper | https://arxiv.org/pdf/2103.00020
14分钟 · 2个月前
0
0
SigLIP 2：统一配方升级多语言视觉编码器
这期聊 Google DeepMind 的 SigLIP 2，如何把 SigLIP、captioning pretraining、self-distillation 和 masked prediction 合成一套统一训练方案。它不只提升 zero-shot 分类和图文检索，还显著增强定位、分割、深度估计和 OCR 等细颗粒度能力。我们也会重点讲它为什么能在英文性能、多语言泛化和稠密特征之间取得更好的平衡。 00:00 背景与动机 02:04 方法拆解 05:58 实验结果深读 14:40 图表导读 16:11 评价与讨论 18:18 延伸思考 Source: paper | https://arxiv.org/pdf/2502.14786
20分钟 · 2个月前
0
0
MAE：高遮挡重建学会视觉表征
这期讲清楚 MAE 怎么把 NLP 里的 masked modeling 成功搬到视觉领域：随机遮掉 75% 图像，只让编码器看可见 patch，再用轻量解码器补全。你会理解它为什么用极简的像素重建目标，却能在分类、检测和分割迁移上全面超过监督预训练。也会看到这篇论文真正厉害的地方，不只是效果强，而是重新定义了视觉自监督的主流路线。 00:00 背景与动机 01:53 方法拆解 04:27 实验结果深读 12:41 图表导读 13:53 评价与讨论 15:54 延伸思考 Source: paper | https://arxiv.org/pdf/2111.06377
18分钟 · 2个月前
0
0
DINOv3：用Gram锚定拯救稠密视觉特征
这期聊 DINOv3 怎么点破一个关键问题：自监督视觉模型越做越大，分类更强了，但分割、深度、跟踪这些依赖 patch 细节的稠密特征反而会退化。它的核心招式是 Gram anchoring，不强行对齐特征值，而是锁住 patch 之间的相似结构，让局部几何关系不散。结果也很硬：ADE20k、NYUv2、DAVIS、COCO 等任务全面提升，说明大规模自监督视觉模型第一次更系统地解决了 dense feature 失真问题。 00:00 背景与动机 02:03 方法拆解 05:09 实验结果深读 11:44 图表导读 13:11 评价与讨论 15:05 延伸思考 Source: paper | https://arxiv.org/pdf/2508.10104
17分钟 · 2个月前
0
0
DINOv2：无监督学出通用视觉特征
这期聊 Meta 和 Inria 的 DINOv2：只靠高质量无标注图像和自监督学习，能否训练出像 foundation model 一样开箱即用的视觉特征。我们会拆解它的三大关键：LVD-142M curated 数据、结合全局与 patch 的训练目标，以及把大模型能力蒸馏给小模型的规模化工程。更重要的是看它为什么能在分类、检索、分割、深度和鲁棒性上全面超过不少弱监督方法，并重新证明“纯视觉路线”依然大有可为。 00:00 背景与动机 01:54 方法拆解 04:44 实验结果解读 11:36 图表导读 12:42 评价与讨论 14:27 延伸思考 Source: paper | https://arxiv.org/pdf/2304.07193
16分钟 · 2个月前
0
0
Fast-WAM：训练学世界，测试直接出动作
这期聊一篇直击关键问题的机器人论文：世界动作模型真的需要在测试时先“想象未来视频”再行动吗？Fast-WAM给出的答案是，不一定——真正有效的关键，主要来自训练时的视频共训练，而不是测试时显式生成未来。它在仿真和真实世界里都证明了：不脑补未来画面，也能保持强性能，还把推理延迟大幅降到可实时部署。 00:00 背景与动机 02:23 方法拆解 06:10 实验结果解读 12:55 图表导读 14:48 评价与讨论 17:46 延伸思考 Source: paper | https://arxiv.org/pdf/2603.16666
20分钟 · 2个月前
1
0
LLM知识库：把资料编译成可演化个人Wiki
Karpathy 展示了一种用 LLM 搭建个人知识库的工作流：把论文、网页、代码和图片统一摄取，再自动编译成带链接、分类和概念条目的 Markdown wiki。这个系统不只是拿来检索，还能在 Obsidian 里持续生成问答、文档、幻灯片和图表，并把输出反向归档进知识库。重点不在某个单点工具，而在于让 LLM 从聊天助手升级为“知识操作系统”，持续整理、维护并扩展你的研究积累。 00:00 主题引入 01:14 从原始资料到知识编译 03:19 Obsidian 作为前端 04:51 当知识库大到能问复杂问题 06:31 输出不只是答案 08:02 用 LLM 给知识库做体检 09:18 辅助工具与搜索能力 10:50 从上下文到权重 12:07 更大的产品想象 13:10 简短总结 Source: twitter | https://x.com/karpathy/status/2039805659525644595?s=46
14分钟 · 2个月前
13
1

自动生成的播客