# 0610 MLSYS 论文简报:LLM Agent 服务仿真、开放世界自进化与 RLVR 奖励瓶颈
Audio:
## 内容时间戳
- Opening: 0610 MLSYS 论文简报
- 基于 2026-06-09 晚间完成的 arXiv 论文召回与筛选;音频不朗读链接。
- AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving
- 机构:中佛罗里达大学
- 夯到拉评价:顶级(Jeff champion)
- 亮点:这篇论文叫 AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving,来自中佛罗里达大学。它解决的是多轮大模型 Agent 服务评估的痛点。
- Link: arxiv.org
- OpenSkill: Open-World Self-Evolution for LLM Agents
- 机构:利哈伊大学; 伊利诺伊大学芝加哥分校
- 夯到拉评价:人上人(Ada champion)
- 亮点:我挑选的是 OpenSkill: Open-World Self-Evolution for LLM Agents,合作机构包括利哈伊大学和伊利诺伊大学芝加哥分校。我们一直在谈 Agent 的自进化,但以往的研究都假设存在一个现成的反馈闭环,比如有一套准备好的技能库、成功的轨迹样本或者可靠的自动校验器。
- Link: arxiv.org
- Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short
- 机构:剑桥大学; Mistral AI
- 夯到拉评价:NPC(Ada champion)
- 亮点:好,那我们接下来看第三篇,这是一篇非常有意思的探索性工作,叫 Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short,由剑桥大学和 Mistral AI 联合发表。 这个标题很有意思,Reasoning Arena,推理竞技场。
- Link: arxiv.org
- Wrap-up
- 总结本期重点论文和后续阅读优先级。
## 制作元信息
- 论文召回:原始 JSONL 记录 262 篇;新论文 262 篇;带入 backlog 9 篇。
- 筛选链路:新候选 199 篇;backlog 候选 9 篇;粗排 208 篇;LLM 精评 19 篇;本期播客主讲 3 篇;快速提及 0 篇。
- LLM:gemini-3.5-flash;input 3536 tokens,output 1836 tokens,总计 5372 tokens。
- TTS:seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_yingyujiaoxue_uranus_bigtts;26 turns,输入 2974 字符,计费文本 2974 words。
## 本期变更
- 双主播对白改用 gemini-3.5-flash 生成:解释更清晰、夯到拉评分更严格。
- 当日新论文批次偏弱,算法 champion 由人工复核后选定 OpenSkill。
