【周末特辑】3月第5周最火AI论文 | 扩散OCR逆向渲染；世界模型交互大考 - HuggingFace 每日AI论文速递

【赞助商】

通勤路上就听AI每周谈。AI每周谈，每周带你回顾上周AI大事

【目录】

本期的 5 篇论文如下：

00:49 TOP1(🔥124) | 🔍 MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding（MinerU-Diffusion：将文档OCR重新思考为通过扩散解码的逆向渲染）

03:11 TOP2(🔥122) | 🧪 Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models（Omni-WorldBench：迈向面向世界模型的全面交互中心化评估）

05:47 TOP3(🔥114) | 🚀 Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model（速度源于简洁：用于快速音视频生成基础模型的单流架构）

07:54 TOP4(🔥104) | 🎬 Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models（Astrolabe：面向蒸馏自回归视频模型的前向过程强化学习引导框架）

10:09 TOP5(🔥104) | 🔗 HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning（HopChain：用于可泛化视觉语言推理的多跳数据合成）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递