2026.06.22 | 感知扩散模型提速三倍；记忆驱动框架精准修订幻灯片 - HuggingFace 每日AI论文速递

【赞助商】
OpenClaw快报
每天五分钟，听听 OpenClaw 快报，带你了解最新动态和业内讨论
传送门 www.xiaoyuzhoufm.com

【目录】
本期的 14 篇论文如下：

[00:33] 🚀 PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models（感知扩散语言模型：基于多模态扩散语言模型的并行区域感知）
[01:22] 🎨 MemSlides: A Hierarchical Memory Driven Agent Framework for Personalized Slide Generation with Multi-turn Local Revision（MemSlides：一种面向个性化幻灯片生成与多轮局部修订的分层记忆驱动智能体框架）
[02:24] 🧠 GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents（GateMem：多主体共享内存智能体的记忆治理基准测试）
[03:24] 🧭 MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval（MCompassRAG：主题元数据作为段落级检索的语义指南针）
[04:18] 🔄 Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models（多轮反射掩码激发掩码扩散模型的推理能力）
[05:22] 🌳 SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG（SproutRAG：基于注意力引导的树搜索与渐进式嵌入的长文档检索增强生成）
[06:18] 🧠 BrainG3N: A Dual-Purpose Tokenizer for Controllable 3D Brain MRI Generation（BrainG3N：一种用于可控3D脑MRI生成的双用途分词器）
[07:18] 🌍 WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents（世界线：面向长时域具身智能体的基准测试与建模）
[08:16] 🤖 GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning（通用视觉-语言-动作系统2：几何感知重建与受控记忆用于机器人规划）
[09:07] 🧑 SpatialAvatar-0: High-Quality 4D Head Avatar with Multi-Stage Reconstruction（SpatialAvatar-0：基于多阶段重建的高质量4D头部虚拟化身）
[10:15] 💬 Distilling Examples into Task Instructions: Enhanced In-Context Learning for Real-World B2B Conversations（将示例蒸馏为任务指令：面向真实世界B2B对话的增强型上下文学习）
[11:20] 👁 StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs（风格化偏见：少数人类视觉线索驱动多模态大语言模型中的大多数社会偏见）
[12:08] 📖 Characterizing Narrative Content in Web-scale LLM Pretraining Data（网络规模大语言模型预训练数据中的叙事内容特征化）
[13:09] 📊 When, Where, and How: Adaptive Binning for Tabular Self-Supervised Learning（何时、何地以及如何：面向表格自监督学习的自适应分箱方法）

【关注我们】
您还可以在以下平台找到我们，获得播客内容以外更多信息
小红书: AI速递