2026.05.18 | 人类视频炼物理常识；文档问答要查原文 - HuggingFace 每日AI论文速递

【目录】
本期的 15 篇论文如下：
[00:23] 🧠 PhysBrain 1.0 Technical Report（PhysBrain 1.0 技术报告）
[00:56] 🔍 CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence（CiteVQA：为可信文档智能建立证据归因基准）
[01:45] 🤖 MMSkills: Towards Multimodal Skills for General Visual Agents（MMSkills：面向通用视觉智能体的多模态技能）
[02:35] 👗 FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization（FashionChameleon：面向实时且交互式的人体-服装视频定制）
[03:20] 🦾 DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo（DexJoCo：面向任务型灵巧操作的MuJoCo基准测试与工具包）
[04:19] 🔮 Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation（学会预见：揭示在线策略蒸馏的解锁效率）
[04:54] 🖼 InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation（InsightTok：改进自回归图像生成中离散标记化的文本和人脸保真度）
[05:48] 🧠 Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding（通过协作式逐步多教师解码蒸馏长链思维推理）
[06:44] ⚡ Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization（Flash-GRPO：基于单步策略优化的高效视频扩散对齐方法）
[07:29] 🧭 Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR（超越舒适区的助推：用于RLVR的高效策略引导探索）
[08:10] 🎮 ReactiveGWM: Steering NPC in Reactive Game World Models（反应式游戏世界模型：在反应性游戏世界中操控非玩家角色）
[08:46] ⚖ Hölder Policy Optimisation（赫尔德策略优化）
[09:36] 🧠 Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution（Solvita：通过智能体进化增强大型语言模型在竞赛编程中的能力）
[10:22] 🌐 CM-EVS: Sparse Panoramic RGB-D-Pose Data for Complete Scene Coverage（CM-EVS：用于完整场景覆盖的稀疏全景RGB-D-姿态数据）
[11:05] 🎯 PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control（PAGER：弥合点精确几何GUI控制中的语义-执行鸿沟）

【关注我们】
您还可以在以下平台找到我们，获得播客内容以外更多信息
小红书: AI速递