Meta 3D交互世界，智源机器人数据集，新国立时空感知融入VLA，Zyphra高效模型|奇绩前沿信号1125

奇绩前沿信号播客——全球 AI 前沿的情报站

奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。

我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。

播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。

针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。

点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。

【奇绩前沿信号介绍】

【时间轴】

01:16 Meta Reality Labs 发布 WorldGen：通过文本提示五分钟内生成可交互、可导航的 3D 世界

03:50 北京智源研究院等15家机构联合发布RoboCOIN：首个超18万演示的多具身双臂操作数据集，引入分层能力金字塔实现概念到控制的多层次学习

05:34 新加坡国立大学提出VLA-4D：首个将4D时空感知嵌入视觉-语言-动作模型的机器人操控框架，实现时空连贯的精准操作

06:39 Zyphra和IBM首次在全栈AMD平台上完成大规模MoE预训练，推出760M活跃参数的ZAYA1-base模型，性能媲美Qwen3-4B和Gemma3-12B

07:28 中国香港中文大学与Vivix.AI提出Neighbor GRPO：通过对比式ODE策略优化实现流模型对齐，训练效率提升12倍

08:12 DP Technology提出MR-RLVR：通过遮蔽与重排自监督，使LLM在仅验证最终答案的强化学习中显著提升数学推理能力

08:59 罗切斯特大学等提出Video-R4：通过视觉反刍强化文本密集型视频推理，在M4-ViteVQA基准上达到SOTA

09:55 北卡罗来纳大学教堂山分校提出SketchVerify：通过草图引导验证实现物理感知的视频生成规划，在保持高质量的同时将规划成本降低93%

10:36 上海交通大学与小红书联合提出ODTSR：基于Qwen-Image的单步扩散Transformer实现可控真实世界图像超分辨率，同时保证保真度与提示词控制能力

11:06 上海AI Lab等推出RacketVision：首个跨运动球拍姿态标注数据集，开创多模态融合球轨预测新范式

11:28 德克萨斯大学奥斯汀分校等提出CaptionStew：通过1070万音频标注数据集重新审视音频-语言预训练，实现通用音频表征学习的新突破

11:44 阿里达摩院提出RynnVLA-002：将视觉-语言-动作模型与世界模型统一，实现机器人操作任务97.4%成功率

12:43 地平线机器人等提出Progress-Think：通过语义进度推理实现视觉-语言导航的突破性提升

13:04 清华大学与中关村学院提出MirrorMind：融合个体认知轨迹与集体学科记忆的科学AI架构，实现高保真科学家模拟与跨学科问题求解

14:03 清华大学与中关村学院提出OmniScientist：构建人类与AI科学家共同进化的生态系统

14:41 上海交通大学、创智学院与美团联合发布Q-Real数据集，为AI生成图像质量评估建立首个真实性与合理性的细粒度评估基准

15:52 斯坦福大学提出AI基准测试系统性修订框架，通过统计分析精准定位无效问题

16:19 NewMind AI提出PARROT框架：首个系统性量化大语言模型在社会压力下准确性退化的鲁棒性评估基准

17:00 昆士兰大学与百度联合提出FingerCap，构建首个细粒度手指级运动描述基准，达成40K规模数据集与新型评估框架

如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。