Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。
进群添加小助手微信:seventy3_podcast
备注:小宇宙
今天的主题是:
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
Summary
这项研究提出了 xAR,这是一种用于自回归视觉生成的新框架,旨在超越传统的基于 “下一词元” 预测的方法。通过将 “词元” 的概念扩展到更灵活的 “实体 X”,例如 图像块的局部群组(单元格)、非局部群组(子采样) 或 甚至整个图像,xAR 可以捕获不同的上下文粒度和空间结构。该模型不使用教师强制,而是通过 噪声上下文学习(一种利用 流匹配 进行连续实体回归的训练方法)来解决累积误差问题。xAR 在 ImageNet 基准测试中取得了最先进的性能,其 下一单元格预测 设计和 噪声上下文学习 方法展现了其在生成高质量图像方面的有效性和速度。
原文链接:arxiv.org