2026.03.03 | 自适应扩展省算力；令牌秒变动效 - HuggingFace 每日AI论文速递

【赞助商】

通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事

传送门 🔗www.xiaoyuzhoufm.com

【目录】

本期的 15 篇论文如下：

00:30 ⚡ From Scale to Speed: Adaptive Test-Time Scaling for Image Editing（从规模到速度：图像编辑的自适应测试时扩展）

01:16 🎨 OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens（OmniLottie：通过参数化Lottie令牌生成矢量动画）

01:57 🤖 OpenAutoNLU: Open Source AutoML Library for NLU（OpenAutoNLU：面向自然语言理解的开源自动机器学习库）

02:37 🧩 MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning（MMR-Life：拼凑真实生活场景以实现多模态多图像推理）

03:32 📊 RubricBench: Aligning Model-Generated Rubrics with Human Standards（RubricBench：对齐模型生成的评分标准与人类标准）

04:16 🧠 CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning（CHIMERA：用于通用大语言模型推理的紧凑合成数据集）

05:04 🔍 VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection（VGGT-Det：挖掘VGGT内部先验实现无需传感器几何的多视角室内3D目标检测）

06:08 🤖 CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification（CoVe：通过约束引导验证训练交互式工具使用智能体）

06:50 ⚙ SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale（SWE-rebench V2：大规模语言无关的软件工程任务集合）

07:37 📊 Spectral Condition for $μ$P under Width-Depth Scaling（宽度-深度缩放下 $μ$P 的光谱条件）

08:21 🎬 WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories（WorldStereo：通过3D几何记忆桥接相机引导视频生成与场景重建）

09:08 🧠 LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model（LLaDA-o：一种高效且长度自适应的全能扩散模型）

10:11 🧠 Efficient RLVR Training via Weighted Mutual Information Data Selection（基于加权互信息数据选择的高效RLVR训练方法）

10:48 🧠 Learn Hard Problems During RL with Reference Guided Fine-tuning（通过参考引导微调在强化学习中学习难题）

11:51 🔬 When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains（强化学习何时助力医学视觉语言模型？解构视觉、监督微调与强化学习的增益）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递