0612 MLSYS 论文简报:MTP 加速 RL 训练、Agentic RL 过程级信用分配

0612 MLSYS 论文简报:MTP 加速 RL 训练、Agentic RL 过程级信用分配

12分钟 ·
播放数4
·
评论数0

## 内容时间戳

- 00:00 Opening: 0612 MLSYS 论文简报

- 基于 2026-06-11 晚间完成的 arXiv 论文召回与筛选;音频不朗读链接。

- 00:39 Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling

- 机构:阿里巴巴通义千问团队

- 夯到拉评价:夯(Jeff champion)

- 亮点:我今天选出的系统方向重磅论文标题是 Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling。这篇论文来自阿里巴巴通义千问团队,arXiv 编号是 2606.12370。

- Link: arxiv.org


- 04:24 APPO: Agentic Procedural Policy Optimization

- 机构:中国科学技术大学; 阿里巴巴高德

- 夯到拉评价:夯(Ada champion)

- 亮点:好,我挑的这篇是关于智能体强化学习的,标题叫 APPO: Agentic Procedural Policy Optimization。它来自中国科学技术大学和阿里巴巴高德团队,arXiv 编号是 2606.12384。

- Link: arxiv.org


- 07:33 Teaching Diffusion to Speculate Left-to-Right

- 机构:SB Intuitions(日本)

- 夯到拉评价:夯(Ada champion)

- 亮点:接下来我们看第三篇,这是一篇非常有探索性、上限极高的论文,标题叫 Teaching Diffusion to Speculate Left-to-Right。它来自日本的 SB Intuitions,arXiv 编号是 2606.11552。

- Link: arxiv.org


- 11:43 Wrap-up

- 总结本期重点论文和后续阅读优先级。


## 制作元信息

- 论文召回:原始 JSONL 记录 359 篇;新论文 359 篇;带入 backlog 10 篇。

- 筛选链路:新候选 288 篇;backlog 候选 10 篇;粗排 298 篇;LLM 精评 20 篇;本期播客主讲 3 篇;快速提及 3 篇。

- LLM:gemini-3.5-flash;input 5717 tokens,output 2457 tokens,总计 8174 tokens。

- TTS:seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_yingyujiaoxue_uranus_bigtts;34 turns,输入 4065 字符,计费文本 4065 words。

## 本期工作流改进

- 标题改为主题式,不再用日期或「每日新闻」式占位。

- 机构信息统一改用 arXiv PDF 首页核验(六月新论文尚未进入 Semantic Scholar/OpenAlex)。

- 新增对外部声明的事实核查:本期据 PDF 移除了一处未经证实的会议录用说法。