2025.04.18 | CLIMB提升领域模型表现；反蒸馏采样防止模型被盗用。 - HuggingFace 每日AI论文速递

本期的 15 篇论文如下：

00:23 🗂 CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training（CLIMB：基于聚类的迭代数据混合引导预训练方法）

01:03 🧪 Antidistillation Sampling（反蒸馏采样）

01:41 🤝 A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis（小型LLM的策略协调框架在数据合成方面与大型LLM相媲美）

02:26 🎬 Packing Input Frame Context in Next-Frame Prediction Models for Video Generation（视频生成中基于帧打包的下一帧预测模型）

03:02 🤖 Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling（生成，但验证：通过回顾重采样减少视觉-语言模型中的幻觉）

03:43 🧠 WORLDMEM: Long-term Consistent World Simulation with Memory（WORLDMEM：基于记忆的长期一致性世界模拟）

04:27 🎬 VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models（VistaDPO：用于大型视频模型的分层时空直接偏好优化）

05:01 🤖 NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation（NoisyRollout：利用数据增强强化视觉推理）

05:43 🎨 DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging（DMM：构建基于蒸馏模型合并的通用图像生成模型）

06:20 📊 ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering（ChartQAPro：一个更多样化和更具挑战性的图表问答基准）

07:07 🤖 Exploring Expert Failures Improves LLM Agent Tuning（探索专家失败案例以提升LLM Agent的调优效果）

07:48 🎨 InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework（InstantCharacter：使用可扩展的扩散Transformer框架个性化任何角色）

08:26 📸 CCMNet: Leveraging Calibrated Color Correction Matrices for Cross-Camera Color Constancy（CCMNet：利用校准颜色校正矩阵实现跨相机色彩恒常性）

09:06 🎬 FocusedAD: Character-centric Movie Audio Description（聚焦AD：以角色为中心的电影音频描述）

09:39 🤔 Retrieval-Augmented Generation with Conflicting Evidence（检索增强生成与冲突证据）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递