Rex Omni:终结坐标回归?当目标检测变成“Next Token Prediction”

Rex Omni:终结坐标回归?当目标检测变成“Next Token Prediction”

23分钟 ·
播放数2
·
评论数0

📜 节目概要:

本期节目,我们深入剖析了一项颠覆性的工作——Rex Omni。它彻底抛弃了目标检测领域以YOLO、DETR为代表的传统“坐标回归”玩法,将这个经典的计算机视觉任务,完全重塑为一个大语言模型的“Next Token Prediction”问题。我们将详细拆解其三大核心支柱:一是“Next Point Prediction”任务范式,看它如何通过坐标量化和特殊词元,将几何定位变成序列生成;二是SFT+GRPO两阶段训练法,揭示其如何利用强化学习,系统性地治愈监督微调(SFT)阶段产生的“几何离散化”和“行为缺陷”等顽疾;三是其强大的数据引擎,看它如何奉行“Data Centric AI”理念,通过巧妙的流水线设计,为模型自动生产海量、高质量的训练“教材”。最终,我们将探讨这一范式在开启“语言感知”新维度的同时,所需付出的速度代价,以及它对未来视觉感知系统演进方向的深刻启示。

📚 参考论文:

标题: Rex-Omni: Detect Anything via Next Point Prediction

作者: Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang (International Digital Economy Academy, IDEA)

链接: 2510.12798

📝 节目重点:

00:43 掀桌子!不玩回归玩生成: 探讨Rex Omni的核心思想,如何将目标检测这个经典的几何回归任务,彻底转变为一个语言模型的“Next Token Prediction”问题。

01:32 范式革新——“Next Point Prediction”: 深入解析其关键设计,如何通过将坐标“量子化”到0-999,并创建1000个专用坐标词元,把一个检测框的输出变成一个简短的词元序列。

03:27 效率与难度的权衡: 为什么非要设计1000个特殊词元?对比直接生成数字token的方案,分析Rex Omni在推理效率和模型学习难度上的核心优势。

05:20 两阶段训练法: 介绍SFT+GRPO的训练流程。为什么说单纯的监督微调(SFT)不足以训练出好的生成式检测器?

06:34 SFT的原罪——“Teacher Forcing”: 详解SFT的两个“老大难”问题:“几何离散化问题”(交叉熵损失不懂几何)和“行为调节缺陷”(模型学不会何时停止),以及它们如何导致重复检测、漏检和“大框病”。

08:49 对症下药的GRPO: 揭示基于强化学习的GRPO如何解决SFT的顽疾。通过引入几何感知的奖励函数(如IoU),将优化目标与真实检测精度对齐,并教会模型“什么才是好的检测行为”。

12:17 “数据炼金术”——Data Engines: 揭秘Rex Omni背后的数据工厂。看它如何通过巧妙的“短语过滤”和串联多个SOTA模型(Qwen, Molmo, SAM)的全自动流水线,为模型大规模生产高质量的Grounding和Referring数据。

16:32 GRPO的深层魔法: 探讨GRPO的真正作用不仅是修正行为,更是“提升正确预测的概率”。它如何通过奖励信号重塑概率分布,解锁并固化SFT阶段学到的“潜能”。

18:59 优雅的代价: 直面Rex Omni范式最大的局限——推理速度。为什么自回归生成模式在实时性要求高的场景下,目前还无法取代传统检测器。

19:56 生成式检测的独特优势: 探讨Rex Omni最适合的应用场景——需要复杂语言理解的“语言感知”任务,例如指代检测和零样本泛化,将检测从“定位”提升到“理解并定位”的认知层面。

21:18 回归与生成的未来: 展望目标检测的未来技术形态,是生成式玩法最终吞噬回归式,还是两者走向融合,形成取长补短的混合架构?