0612 MLSYS 论文简报：MTP 加速 RL 训练、Agentic RL 过程级信用分配

## 内容时间戳

- 00:00 Opening: 0612 MLSYS 论文简报

- 基于 2026-06-11 晚间完成的 arXiv 论文召回与筛选；音频不朗读链接。

- 00:39 Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling

- 机构：阿里巴巴通义千问团队

- 夯到拉评价：夯（Jeff champion）

- 亮点：我今天选出的系统方向重磅论文标题是 Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling。这篇论文来自阿里巴巴通义千问团队，arXiv 编号是 2606.12370。

- 04:24 APPO: Agentic Procedural Policy Optimization

- 机构：中国科学技术大学; 阿里巴巴高德

- 夯到拉评价：夯（Ada champion）

- 亮点：好，我挑的这篇是关于智能体强化学习的，标题叫 APPO: Agentic Procedural Policy Optimization。它来自中国科学技术大学和阿里巴巴高德团队，arXiv 编号是 2606.12384。

- 07:33 Teaching Diffusion to Speculate Left-to-Right

- 机构：SB Intuitions（日本）

- 夯到拉评价：夯（Ada champion）

- 亮点：接下来我们看第三篇，这是一篇非常有探索性、上限极高的论文，标题叫 Teaching Diffusion to Speculate Left-to-Right。它来自日本的 SB Intuitions，arXiv 编号是 2606.11552。

- 11:43 Wrap-up

- 总结本期重点论文和后续阅读优先级。

## 制作元信息

- 论文召回：原始 JSONL 记录 359 篇；新论文 359 篇；带入 backlog 10 篇。

- 筛选链路：新候选 288 篇；backlog 候选 10 篇；粗排 298 篇；LLM 精评 20 篇；本期播客主讲 3 篇；快速提及 3 篇。

- LLM：gemini-3.5-flash；input 5717 tokens，output 2457 tokens，总计 8174 tokens。

- TTS：seed-tts-2.0；Jeff voice zh_male_m191_uranus_bigtts，Ada voice zh_female_yingyujiaoxue_uranus_bigtts；34 turns，输入 4065 字符，计费文本 4065 words。

## 本期工作流改进

- 标题改为主题式，不再用日期或「每日新闻」式占位。

- 机构信息统一改用 arXiv PDF 首页核验（六月新论文尚未进入 Semantic Scholar/OpenAlex）。

- 新增对外部声明的事实核查：本期据 PDF 移除了一处未经证实的会议录用说法。