【第238期】xAR:Next-X PredictionSeventy3

【第238期】xAR:Next-X Prediction

15分钟 ·
播放数4
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法方向,让大家跟着AI一起进步。

进群添加小助手微信:seventy3_podcast

备注:小宇宙

今天的主题是:

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

Summary

这项研究提出了 xAR,这是一种用于自回归视觉生成的新框架,旨在超越传统的基于 “下一词元” 预测的方法。通过将 “词元” 的概念扩展到更灵活的 “实体 X”,例如 图像块的局部群组(单元格)、非局部群组(子采样)甚至整个图像,xAR 可以捕获不同的上下文粒度和空间结构。该模型不使用教师强制,而是通过 噪声上下文学习(一种利用 流匹配 进行连续实体回归的训练方法)来解决累积误差问题。xAR 在 ImageNet 基准测试中取得了最先进的性能,其 下一单元格预测 设计和 噪声上下文学习 方法展现了其在生成高质量图像方面的有效性和速度。

原文链接:arxiv.org