0610 MLSYS 论文简报:LLM Agent 服务仿真、开放世界自进化与 RLVR 奖励瓶颈

0610 MLSYS 论文简报:LLM Agent 服务仿真、开放世界自进化与 RLVR 奖励瓶颈

9分钟 ·
播放数2
·
评论数1

# 0610 MLSYS 论文简报:LLM Agent 服务仿真、开放世界自进化与 RLVR 奖励瓶颈

Audio: 09:11

## 内容时间戳

- 00:00 Opening: 0610 MLSYS 论文简报

- 基于 2026-06-09 晚间完成的 arXiv 论文召回与筛选;音频不朗读链接。

- 00:24 AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving

- 机构:中佛罗里达大学

- 夯到拉评价:顶级(Jeff champion)

- 亮点:这篇论文叫 AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving,来自中佛罗里达大学。它解决的是多轮大模型 Agent 服务评估的痛点。

- Link: arxiv.org


- 03:17 OpenSkill: Open-World Self-Evolution for LLM Agents

- 机构:利哈伊大学; 伊利诺伊大学芝加哥分校

- 夯到拉评价:人上人(Ada champion)

- 亮点:我挑选的是 OpenSkill: Open-World Self-Evolution for LLM Agents,合作机构包括利哈伊大学和伊利诺伊大学芝加哥分校。我们一直在谈 Agent 的自进化,但以往的研究都假设存在一个现成的反馈闭环,比如有一套准备好的技能库、成功的轨迹样本或者可靠的自动校验器。

- Link: arxiv.org


- 05:59 Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

- 机构:剑桥大学; Mistral AI

- 夯到拉评价:NPC(Ada champion)

- 亮点:好,那我们接下来看第三篇,这是一篇非常有意思的探索性工作,叫 Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short,由剑桥大学和 Mistral AI 联合发表。 这个标题很有意思,Reasoning Arena,推理竞技场。

- Link: arxiv.org


- 08:41 Wrap-up

- 总结本期重点论文和后续阅读优先级。


## 制作元信息

- 论文召回:原始 JSONL 记录 262 篇;新论文 262 篇;带入 backlog 9 篇。

- 筛选链路:新候选 199 篇;backlog 候选 9 篇;粗排 208 篇;LLM 精评 19 篇;本期播客主讲 3 篇;快速提及 0 篇。

- LLM:gemini-3.5-flash;input 3536 tokens,output 1836 tokens,总计 5372 tokens。

- TTS:seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_yingyujiaoxue_uranus_bigtts;26 turns,输入 2974 字符,计费文本 2974 words。


## 本期变更

- 双主播对白改用 gemini-3.5-flash 生成:解释更清晰、夯到拉评分更严格。

- 当日新论文批次偏弱,算法 champion 由人工复核后选定 OpenSkill。

展开Show Notes
小白超AI算
小白超AI算
11小时前
双主播对白改用 gemini-3.5-flash 生成:解释更清晰、评分更严格