Rex Omni：终结坐标回归？当目标检测变成“Next Token Prediction”

📜 节目概要：

本期节目，我们深入剖析了一项颠覆性的工作——Rex Omni。它彻底抛弃了目标检测领域以YOLO、DETR为代表的传统“坐标回归”玩法，将这个经典的计算机视觉任务，完全重塑为一个大语言模型的“Next Token Prediction”问题。我们将详细拆解其三大核心支柱：一是“Next Point Prediction”任务范式，看它如何通过坐标量化和特殊词元，将几何定位变成序列生成；二是SFT+GRPO两阶段训练法，揭示其如何利用强化学习，系统性地治愈监督微调（SFT）阶段产生的“几何离散化”和“行为缺陷”等顽疾；三是其强大的数据引擎，看它如何奉行“Data Centric AI”理念，通过巧妙的流水线设计，为模型自动生产海量、高质量的训练“教材”。最终，我们将探讨这一范式在开启“语言感知”新维度的同时，所需付出的速度代价，以及它对未来视觉感知系统演进方向的深刻启示。

📚 参考论文：

标题： Rex-Omni: Detect Anything via Next Point Prediction

作者： Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang (International Digital Economy Academy, IDEA)

链接： 2510.12798

📝 节目重点：

00:43 掀桌子！不玩回归玩生成：探讨Rex Omni的核心思想，如何将目标检测这个经典的几何回归任务，彻底转变为一个语言模型的“Next Token Prediction”问题。

01:32 范式革新——“Next Point Prediction”：深入解析其关键设计，如何通过将坐标“量子化”到0-999，并创建1000个专用坐标词元，把一个检测框的输出变成一个简短的词元序列。

03:27 效率与难度的权衡：为什么非要设计1000个特殊词元？对比直接生成数字token的方案，分析Rex Omni在推理效率和模型学习难度上的核心优势。

05:20 两阶段训练法：介绍SFT+GRPO的训练流程。为什么说单纯的监督微调（SFT）不足以训练出好的生成式检测器？

06:34 SFT的原罪——“Teacher Forcing”：详解SFT的两个“老大难”问题：“几何离散化问题”（交叉熵损失不懂几何）和“行为调节缺陷”（模型学不会何时停止），以及它们如何导致重复检测、漏检和“大框病”。

08:49 对症下药的GRPO：揭示基于强化学习的GRPO如何解决SFT的顽疾。通过引入几何感知的奖励函数（如IoU），将优化目标与真实检测精度对齐，并教会模型“什么才是好的检测行为”。

12:17 “数据炼金术”——Data Engines：揭秘Rex Omni背后的数据工厂。看它如何通过巧妙的“短语过滤”和串联多个SOTA模型（Qwen, Molmo, SAM）的全自动流水线，为模型大规模生产高质量的Grounding和Referring数据。

16:32 GRPO的深层魔法：探讨GRPO的真正作用不仅是修正行为，更是“提升正确预测的概率”。它如何通过奖励信号重塑概率分布，解锁并固化SFT阶段学到的“潜能”。

18:59 优雅的代价：直面Rex Omni范式最大的局限——推理速度。为什么自回归生成模式在实时性要求高的场景下，目前还无法取代传统检测器。

19:56 生成式检测的独特优势：探讨Rex Omni最适合的应用场景——需要复杂语言理解的“语言感知”任务，例如指代检测和零样本泛化，将检测从“定位”提升到“理解并定位”的认知层面。

21:18 回归与生成的未来：展望目标检测的未来技术形态，是生成式玩法最终吞噬回归式，还是两者走向融合，形成取长补短的混合架构？