Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法方向，让大家跟着AI一起进步。
进群添加小助手微信：seventy3_podcast
备注：小宇宙
今天的主题是：
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
Summary
这项研究提出了 xAR，这是一种用于自回归视觉生成的新框架，旨在超越传统的基于 “下一词元” 预测的方法。通过将 “词元” 的概念扩展到更灵活的 “实体 X”，例如 图像块的局部群组（单元格）、非局部群组（子采样） 或 甚至整个图像，xAR 可以捕获不同的上下文粒度和空间结构。该模型不使用教师强制，而是通过 噪声上下文学习（一种利用 流匹配 进行连续实体回归的训练方法）来解决累积误差问题。xAR 在 ImageNet 基准测试中取得了最先进的性能，其 下一单元格预测 设计和 噪声上下文学习 方法展现了其在生成高质量图像方面的有效性和速度。
原文链接：https://arxiv.org/abs/2502.20388

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

zhiwudazhanjiangshi@gmail.com

73播客，名字取材于Sheldon最喜欢的数字，内容由NotebookLM生成，每天跟随AI读AI业界论文。

AI_SUMMARIZE_EPISODE

Seventy3

【第238期】xAR：Next-X Prediction