2026.06.11 | 流形幂迭代优化路由器；假设树精炼驱动自主研究 - HuggingFace 每日AI论文速递

【赞助商】
OpenClaw快报
每天五分钟，听听 OpenClaw 快报，带你了解最新动态和业内讨论
传送门 www.xiaoyuzhoufm.com

【目录】
本期的 15 篇论文如下：

[00:31] 🔀 Redesign Mixture-of-Experts Routers with Manifold Power Iteration（利用流形幂迭代重新设计混合专家路由器）
[01:16] 🌳 Toward Generalist Autonomous Research via Hypothesis-Tree Refinement（迈向通用自主研究：通过假设树精炼实现）
[02:06] 🧪 Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks（Claw-SWE-Bench：用于评估OpenClaw风格智能体框架在编码任务上的基准测试）
[03:12] 🌐 Agentic Environment Engineering for Large Language Models: A Survey of Environment Modeling, Synthesis, Evaluation, and Application（面向大语言模型的智能体环境工程：环境建模、合成、评估与应用综述）
[04:10] 🎯 Beyond Scalar Rewards by Internalizing Reasoning into Score Distributions（超越标量奖励：将推理内化为评分分布）
[05:13] 📊 TRL-Bench: Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders（TRL-Bench：标准化表格编码器的跨范式表示级评估）
[05:57] 🔄 Reason, Then Re-reason: Cross-view Revisiting Improves Spatial Reasoning（先推理，再重新推理：跨视角重访提升空间推理能力）
[06:45] 🧩 DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch（DeNovoSWE：从零开始扩展长周期环境以生成完整代码仓库）
[07:42] 🤖 World Pilot: Steering Vision-Language-Action Models with World-Action Priors（世界领航员：利用世界-动作先验引导视觉-语言-动作模型）
[08:45] 🧠 On Subquadratic Architectures: From Applications to Principles（论次二次架构：从应用到原理）
[09:31] 🧩 ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics（ComBench：面向奥林匹克级组合数学的严谨证明推理与构造实现基准）
[10:24] 🔓 Grammar-Constrained Decoding Can Jailbreak LLMs into Generating Malicious Code（语法约束解码可诱使大语言模型生成恶意代码）
[11:25] 🎥 InternVideo3: Agentify Foundation Models with Multimodal Contextual Reasoning（InternVideo3：通过多模态上下文推理将基础模型智能体化）
[12:18] ⚡ Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling（打破熵界：通过带拒绝采样的多令牌预测加速强化学习训练）
[13:14] 🔍 ICA Lens: Interpreting Language Models Without Training Another Dictionary（ICA透镜：无需训练另一本词典即可解读语言模型）

【关注我们】
您还可以在以下平台找到我们，获得播客内容以外更多信息
小红书: AI速递