这期介绍 Apple 和 EPFL 的 VideoFlexTok：它不再把视频固定切成同样多的 3D token，而是先用少量 token 表达语义、运动和场景结构，再逐步补细节。这样做能把视频生成模型的训练和推理成本显著降下来，甚至用小 5 到 10 倍的模型，做到接近甚至超过传统 tokenizer 的效果。我们还会讲清它为什么能同时兼顾长视频、生成质量和语义一致性，以及这种“先提纲、后润色”的 token 组织方式为什么值得关注。
00:00 背景与动机
02:56 方法拆解
06:56 实验深读
14:42 图表导读
16:32 评价与讨论
19:16 延伸思考
Source: paper | https://arxiv.org/pdf/2604.12887

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

AI_SUMMARIZE_EPISODE

Anything to Podcast

VideoFlexTok：用粗到细可变长token做视频生成

69cfa0a7b977fb2c47086427/lqO4Z6meGFq0s5LrYLxCIBMwbM72.mp3