2025.04.24 | 视觉推理评估新基准；高保真人脸替换技术 - HuggingFace 每日AI论文速递

本期的 14 篇论文如下：

00:23 👁 VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models（VisuLogic：一个用于评估多模态大型语言模型中视觉推理能力的基准）

01:08 🎭 DreamID: High-Fidelity and Fast diffusion-based Face Swapping via Triplet ID Group Learning（DreamID：基于Triplet ID Group Learning的高保真快速扩散人脸替换）

01:46 🌐 Trillion 7B Technical Report（Trillion-7B 技术报告）

02:30 💡 Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model（Pre-DPO：利用引导参考模型提升直接偏好优化中的数据利用率）

03:11 🧩 I-Con: A Unifying Framework for Representation Learning（I-Con：一种统一的表征学习框架）

03:50 🧩 Decoupled Global-Local Alignment for Improving Compositional Understanding（解耦的全局-局部对齐以提升组合理解能力）

04:30 🎨 DreamO: A Unified Framework for Image Customization（DreamO：图像定制的统一框架）

05:12 💡 Tina: Tiny Reasoning Models via LoRA（蒂娜：基于LoRA的小型推理模型）

05:49 🛡 A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment（LLM(-Agent) 全栈安全综合研究：数据、训练与部署）

06:30 🧐 RePOPE: Impact of Annotation Errors on the POPE Benchmark（RePOPE：标注错误对POPE基准的影响）

07:06 💡 Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading（重新思考：基于LLM自适应问题难度分级的优质CoT数据生成）

07:46 🛠 CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation（CRUST-Bench：C到安全Rust转译的综合基准）

08:29 ✅ Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA（未被检查与忽视：用 CheckboxQA 数据集解决大语言模型中的复选框盲点）

09:21 🖼 Progressive Language-guided Visual Learning for Multi-Task Visual Grounding（多任务视觉定位的渐进式语言引导视觉学习）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递