2024.12.24 每日AI论文 | 探索与利用平衡，噪声数据处理提升。 - HuggingFace 每日AI论文速递

本期的 16 篇论文如下：

00:24 🔄 B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners（B-STaR：监控和平衡自学习推理器中的探索与利用）

01:04 🛡 RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response（RobustFT：在噪声响应下的大语言模型的鲁棒监督微调）

01:43 🧠 Diving into Self-Evolving Training for Multimodal Reasoning（深入自进化训练的多模态推理）

02:29 ⚡ Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching（蒸馏解码1：使用流匹配对图像自回归模型进行一步采样）

03:12 🎥 Large Motion Video Autoencoding with Cross-modal Video VAE（基于跨模态视频VAE的大运动视频自动编码）

03:56 🧠 Deliberation in Latent Space via Differentiable Cache Augmentation（潜在空间中的推理增强通过可微缓存扩展）

04:41 📚 Revisiting In-Context Learning with Long Context Language Models（重新审视长上下文语言模型中的上下文学习）

05:25 🧠 Outcome-Refining Process Supervision for Code Generation（代码生成中的结果优化过程监督）

06:11 🧠 DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought（DRT-o1：通过长链思维优化深度推理翻译）

06:48 📚 LearnLM: Improving Gemini for Learning（学习语言模型：提升Gemini的学习能力）

07:33 ⚠ Agent-SafetyBench: Evaluating the Safety of LLM Agents（Agent-SafetyBench：评估LLM代理的安全性）

08:15 🧠 OpenAI o1 System Card（OpenAI o1 系统卡片）

09:03 🧠 NILE: Internal Consistency Alignment in Large Language Models（NILE：大型语言模型中的内部一致性对齐）

09:45 🤖 OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning（OpenRFT：通过强化微调适应领域特定任务的推理基础模型）

10:26 🗣 Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding（Friends-MMC：多模态多方对话理解数据集）

10:59 🌙 PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World（PC代理：当你睡觉时，AI在工作——进入数字世界的认知之旅）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递