2026.03.04 | 统一模型“对齐税”拖累理解；通用点云编码器一锅端多场景 - HuggingFace 每日AI论文速递

【赞助商】

通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事

【目录】

本期的 15 篇论文如下：

00:32 🔍 UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?（UniG2U-Bench：统一模型是否推动了多模态理解的发展？）

01:40 🧩 Utonia: Toward One Encoder for All Point Clouds（Utonia：迈向适用于所有点云的统一编码器）

02:21 🔍 BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?（超越SWE：当前代码智能体能否在单仓库缺陷修复之外生存？）

03:00 🔍 Beyond Language Modeling: An Exploration of Multimodal Pretraining（超越语言建模：多模态预训练的探索）

03:53 🧠 Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models（超越长度缩放：融合广度与深度以优化生成式奖励模型）

04:40 🎯 How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities（大型语言模型的可控性如何？跨行为粒度的统一评估）

05:16 🎬 Kling-MotionControl Technical Report（Kling-MotionControl技术报告）

05:58 🎬 Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance（Kiwi-Edit：基于指令与参考引导的通用视频编辑）

07:01 🤖 Qwen3-Coder-Next Technical Report（Qwen3-Coder-Next技术报告）

07:46 🧠 PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference（PRISM：通过过程奖励模型引导的推理推动深度思考前沿）

08:30 🔍 InfoPO: Information-Driven Policy Optimization for User-Centric Agents（InfoPO：面向用户中心智能体的信息驱动策略优化）

09:29 🔬 Surgical Post-Training: Cutting Errors, Keeping Knowledge（手术式后训练：精准修正错误，稳固保留知识）

10:14 🎛 CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance（CFG-Ctrl：基于控制的Classifier-Free扩散引导）

10:53 🎬 NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing（NOVA：稀疏控制与密集合成的无配对视频编辑框架）

11:58 ⚡ Spilled Energy in Large Language Models（大语言模型中的能量溢出）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递