这期介绍 Apple 和 EPFL 的 VideoFlexTok:它不再把视频固定切成同样多的 3D token,而是先用少量 token 表达语义、运动和场景结构,再逐步补细节。这样做能把视频生成模型的训练和推理成本显著降下来,甚至用小 5 到 10 倍的模型,做到接近甚至超过传统 tokenizer 的效果。我们还会讲清它为什么能同时兼顾长视频、生成质量和语义一致性,以及这种“先提纲、后润色”的 token 组织方式为什么值得关注。
00:00 背景与动机
02:56 方法拆解
06:56 实验深读
14:42 图表导读
16:32 评价与讨论
19:16 延伸思考
Source: paper | arxiv.org
