0610 MLSYS 论文简报：LLM Agent 服务仿真、开放世界自进化与 RLVR 奖励瓶颈

# 0610 MLSYS 论文简报：LLM Agent 服务仿真、开放世界自进化与 RLVR 奖励瓶颈

## 内容时间戳

- 00:00 Opening: 0610 MLSYS 论文简报

- 基于 2026-06-09 晚间完成的 arXiv 论文召回与筛选；音频不朗读链接。

- 00:24 AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving

- 机构：中佛罗里达大学

- 夯到拉评价：顶级（Jeff champion）

- 亮点：这篇论文叫 AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving，来自中佛罗里达大学。它解决的是多轮大模型 Agent 服务评估的痛点。

- Link: arxiv.org

- 03:17 OpenSkill: Open-World Self-Evolution for LLM Agents

- 机构：利哈伊大学; 伊利诺伊大学芝加哥分校

- 夯到拉评价：人上人（Ada champion）

- 亮点：我挑选的是 OpenSkill: Open-World Self-Evolution for LLM Agents，合作机构包括利哈伊大学和伊利诺伊大学芝加哥分校。我们一直在谈 Agent 的自进化，但以往的研究都假设存在一个现成的反馈闭环，比如有一套准备好的技能库、成功的轨迹样本或者可靠的自动校验器。

- Link: arxiv.org

- 05:59 Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

- 机构：剑桥大学; Mistral AI

- 夯到拉评价：NPC（Ada champion）

- 亮点：好，那我们接下来看第三篇，这是一篇非常有意思的探索性工作，叫 Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short，由剑桥大学和 Mistral AI 联合发表。这个标题很有意思，Reasoning Arena，推理竞技场。

- Link: arxiv.org

- 08:41 Wrap-up

- 总结本期重点论文和后续阅读优先级。

## 制作元信息

- 论文召回：原始 JSONL 记录 262 篇；新论文 262 篇；带入 backlog 9 篇。

- 筛选链路：新候选 199 篇；backlog 候选 9 篇；粗排 208 篇；LLM 精评 19 篇；本期播客主讲 3 篇；快速提及 0 篇。

- LLM：gemini-3.5-flash；input 3536 tokens，output 1836 tokens，总计 5372 tokens。

- TTS：seed-tts-2.0；Jeff voice zh_male_m191_uranus_bigtts，Ada voice zh_female_yingyujiaoxue_uranus_bigtts；26 turns，输入 2974 字符，计费文本 2974 words。

## 本期变更

- 双主播对白改用 gemini-3.5-flash 生成：解释更清晰、夯到拉评分更严格。

- 当日新论文批次偏弱，算法 champion 由人工复核后选定 OpenSkill。