2026.03.04 | 统一模型“对齐税”拖累理解;通用点云编码器一锅端多场景

2026.03.04 | 统一模型“对齐税”拖累理解;通用点云编码器一锅端多场景

13分钟 ·
播放数78
·
评论数0

【赞助商】

通勤路上就听AI每周谈。AI每周谈,每周带你回顾上周AI大事

传送门 🔗www.xiaoyuzhoufm.com

【目录】

本期的 15 篇论文如下:

00:32 🔍 UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?(UniG2U-Bench:统一模型是否推动了多模态理解的发展?)

01:40 🧩 Utonia: Toward One Encoder for All Point Clouds(Utonia:迈向适用于所有点云的统一编码器)

02:21 🔍 BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?(超越SWE:当前代码智能体能否在单仓库缺陷修复之外生存?)

03:00 🔍 Beyond Language Modeling: An Exploration of Multimodal Pretraining(超越语言建模:多模态预训练的探索)

03:53 🧠 Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models(超越长度缩放:融合广度与深度以优化生成式奖励模型)

04:40 🎯 How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities(大型语言模型的可控性如何?跨行为粒度的统一评估)

05:16 🎬 Kling-MotionControl Technical Report(Kling-MotionControl技术报告)

05:58 🎬 Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance(Kiwi-Edit:基于指令与参考引导的通用视频编辑)

07:01 🤖 Qwen3-Coder-Next Technical Report(Qwen3-Coder-Next技术报告)

07:46 🧠 PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference(PRISM:通过过程奖励模型引导的推理推动深度思考前沿)

08:30 🔍 InfoPO: Information-Driven Policy Optimization for User-Centric Agents(InfoPO:面向用户中心智能体的信息驱动策略优化)

09:29 🔬 Surgical Post-Training: Cutting Errors, Keeping Knowledge(手术式后训练:精准修正错误,稳固保留知识)

10:14 🎛 CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance(CFG-Ctrl:基于控制的Classifier-Free扩散引导)

10:53 🎬 NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing(NOVA:稀疏控制与密集合成的无配对视频编辑框架)

11:58 ⚡ Spilled Energy in Large Language Models(大语言模型中的能量溢出)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递