

0612 MLSYS 论文简报:MTP 加速 RL 训练、Agentic RL 过程级信用分配## 内容时间戳 - 00:00 Opening: 0612 MLSYS 论文简报 - 基于 2026-06-11 晚间完成的 arXiv 论文召回与筛选;音频不朗读链接。 - 00:39 Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling - 机构:阿里巴巴通义千问团队 - 夯到拉评价:夯(Jeff champion) - 亮点:我今天选出的系统方向重磅论文标题是 Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling。这篇论文来自阿里巴巴通义千问团队,arXiv 编号是 2606.12370。 - Link: https://arxiv.org/abs/2606.12370 - 04:24 APPO: Agentic Procedural Policy Optimization - 机构:中国科学技术大学; 阿里巴巴高德 - 夯到拉评价:夯(Ada champion) - 亮点:好,我挑的这篇是关于智能体强化学习的,标题叫 APPO: Agentic Procedural Policy Optimization。它来自中国科学技术大学和阿里巴巴高德团队,arXiv 编号是 2606.12384。 - Link: https://arxiv.org/abs/2606.12384 - 07:33 Teaching Diffusion to Speculate Left-to-Right - 机构:SB Intuitions(日本) - 夯到拉评价:夯(Ada champion) - 亮点:接下来我们看第三篇,这是一篇非常有探索性、上限极高的论文,标题叫 Teaching Diffusion to Speculate Left-to-Right。它来自日本的 SB Intuitions,arXiv 编号是 2606.11552。 - Link: https://arxiv.org/abs/2606.11552 - 11:43 Wrap-up - 总结本期重点论文和后续阅读优先级。 ## 制作元信息 - 论文召回:原始 JSONL 记录 359 篇;新论文 359 篇;带入 backlog 10 篇。 - 筛选链路:新候选 288 篇;backlog 候选 10 篇;粗排 298 篇;LLM 精评 20 篇;本期播客主讲 3 篇;快速提及 3 篇。 - LLM:gemini-3.5-flash;input 5717 tokens,output 2457 tokens,总计 8174 tokens。 - TTS:seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_yingyujiaoxue_uranus_bigtts;34 turns,输入 4065 字符,计费文本 4065 words。 ## 本期工作流改进 - 标题改为主题式,不再用日期或「每日新闻」式占位。 - 机构信息统一改用 arXiv PDF 首页核验(六月新论文尚未进入 Semantic Scholar/OpenAlex)。 - 新增对外部声明的事实核查:本期据 PDF 移除了一处未经证实的会议录用说法。
0611 MLSYS 论文简报:KV Cache Budget、Agentic RL## 内容时间戳 - 00:00 Opening: 0611 MLSYS 论文简报 - 基于 2026-06-10 晚间完成的 arXiv 论文召回与筛选;音频不朗读链接。 - 00:29 ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models - 机构:清华大学; 香港城市大学 - 夯到拉评价:夯(Jeff champion) - 亮点:对,我挑的这篇 System Champion 论文绝对是当前的及时雨,标题是 ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models。来自清华大学和香港城市大学。 - Link: https://arxiv.org/abs/2606.11164 - 03:15 TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning - 机构:清华大学; 腾讯 - 夯到拉评价:夯(Ada champion) - 亮点:我挑的这篇是 TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning。由清华大学和腾讯联合发表。 - Link: https://arxiv.org/abs/2606.11119 - 06:00 EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents - 机构:上海交通大学; 普林斯顿大学 - 夯到拉评价:顶级(Ada champion) - 亮点:标题是 EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents。由上海交通大学和普林斯顿大学合作,作者里包括了我们熟知的 Mengdi Wang 教授。 - Link: https://arxiv.org/abs/2606.11182 - 08:47 Wrap-up - 总结本期重点论文和后续阅读优先级。 ## 制作元信息 - 论文召回:原始 JSONL 记录 225 篇;新论文 225 篇;带入 backlog 10 篇。 - 筛选链路:新候选 168 篇;backlog 候选 10 篇;粗排 178 篇;LLM 精评 20 篇;本期播客主讲 3 篇;快速提及 2 篇。 - LLM:gemini-3.5-flash;input 5169 tokens,output 1860 tokens,总计 7029 tokens。 - TTS:seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_yingyujiaoxue_uranus_bigtts;34 turns,输入 3195 字符,计费文本 3195 words。
0610 MLSYS 论文简报:LLM Agent 服务仿真、开放世界自进化与 RLVR 奖励瓶颈# 0610 MLSYS 论文简报:LLM Agent 服务仿真、开放世界自进化与 RLVR 奖励瓶颈 Audio: 09:11 ## 内容时间戳 - 00:00 Opening: 0610 MLSYS 论文简报 - 基于 2026-06-09 晚间完成的 arXiv 论文召回与筛选;音频不朗读链接。 - 00:24 AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving - 机构:中佛罗里达大学 - 夯到拉评价:顶级(Jeff champion) - 亮点:这篇论文叫 AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving,来自中佛罗里达大学。它解决的是多轮大模型 Agent 服务评估的痛点。 - Link: https://arxiv.org/abs/2606.09613 - 03:17 OpenSkill: Open-World Self-Evolution for LLM Agents - 机构:利哈伊大学; 伊利诺伊大学芝加哥分校 - 夯到拉评价:人上人(Ada champion) - 亮点:我挑选的是 OpenSkill: Open-World Self-Evolution for LLM Agents,合作机构包括利哈伊大学和伊利诺伊大学芝加哥分校。我们一直在谈 Agent 的自进化,但以往的研究都假设存在一个现成的反馈闭环,比如有一套准备好的技能库、成功的轨迹样本或者可靠的自动校验器。 - Link: https://arxiv.org/abs/2606.06741 - 05:59 Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short - 机构:剑桥大学; Mistral AI - 夯到拉评价:NPC(Ada champion) - 亮点:好,那我们接下来看第三篇,这是一篇非常有意思的探索性工作,叫 Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short,由剑桥大学和 Mistral AI 联合发表。 这个标题很有意思,Reasoning Arena,推理竞技场。 - Link: https://arxiv.org/abs/2606.09380 - 08:41 Wrap-up - 总结本期重点论文和后续阅读优先级。 ## 制作元信息 - 论文召回:原始 JSONL 记录 262 篇;新论文 262 篇;带入 backlog 9 篇。 - 筛选链路:新候选 199 篇;backlog 候选 9 篇;粗排 208 篇;LLM 精评 19 篇;本期播客主讲 3 篇;快速提及 0 篇。 - LLM:gemini-3.5-flash;input 3536 tokens,output 1836 tokens,总计 5372 tokens。 - TTS:seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_yingyujiaoxue_uranus_bigtts;26 turns,输入 2974 字符,计费文本 2974 words。 ## 本期变更 - 双主播对白改用 gemini-3.5-flash 生成:解释更清晰、夯到拉评分更严格。 - 当日新论文批次偏弱,算法 champion 由人工复核后选定 OpenSkill。
0609 MLSYS 论文简报:Clairvoyant、Q-Evolve 与 SlimSearcher# 0609 MLSYS 论文简报 Audio: 09:22 ## 内容时间戳 - 00:00 Opening: 0609 MLSYS 论文简报 - 基于 2026-06-08 晚间完成的 arXiv 论文召回与筛选;音频不朗读链接。 - 00:16 Clairvoyant: Predictive SJF Scheduling to Mitigate Head-of-Line Blocking in Serial LLM Backends - 机构:独立研究者 - 夯到拉评价:顶级(Jeff champion) - 亮点:这篇叫 Clairvoyant: Predictive SJF Scheduling to Mitigate Head-of-Line Blocking in Serial LLM Backends,作者是一位独立研究者。问题背景非常具体:像 Ollama、llama.cpp 这种串行的 LLM 推理后端,本质上是 FCFS 准入,一次只跑一个请求。 - Link: https://arxiv.org/abs/2606.07248 - 03:07 Self-evolving LLM agents with in-distribution Optimization - 机构:埃因霍温理工大学; 利物浦大学 - 夯到拉评价:人上人(Ada champion) - 亮点:我这篇是算法侧的 champion,叫 Self-evolving LLM agents with in-distribution Optimization,作者是埃因霍温理工大学和利物浦大学的团队,方法名叫 Q-Evolve,已经被 ICML 2026 收了。问题是 LLM agent 做长程决策时的 credit assignment:奖励通常只在 episode 末尾给一次,sparse reward 让策略学习非常不稳。 - Link: https://arxiv.org/abs/2606.07367 - 05:45 SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating - 机构:浙江大学; 蚂蚁集团 - 夯到拉评价:顶级(Ada champion) - 亮点:论文叫 SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating,作者来自浙江大学和蚂蚁集团。问题很直接:现在的 deep research agent 在 GAIA、BrowseComp 这种长程信息检索任务上能力很强,但都是暴力解法——盲目调工具、堆冗长 reasoning,token 和 tool call 都极度浪费。 - Link: https://arxiv.org/abs/2606.07074 - 08:52 Wrap-up - 总结本期重点论文和后续阅读优先级。 今天的主线是 LLM 系统和 Agent 训练里的效率问题:从串行推理后端的 head-of-line blocking,到 self-evolving agent 的长程 credit assignment,再到 web agent 训练中的 token/tool call 浪费。Clairvoyant 关注调度路径,Q-Evolve 关注自进化 agent 的优化路径,SlimSearcher 则把 deep research agent 的效率问题放进 reward design 里处理。 ## 制作元信息 - 论文召回:原始 JSONL 记录 356 篇;新论文 356 篇;带入 backlog 8 篇。 - 筛选链路:新候选 295 篇;backlog 候选 5 篇;粗排 300 篇;LLM 精评 15 篇;本期播客主讲 3 篇;快速提及 3 篇。 - LLM:claude-opus-4.7;input 9564 tokens,output 3219 tokens,总计 12783 tokens。 - TTS:seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_yingyujiaoxue_uranus_bigtts;25 turns,输入 3848 字符,计费文本 3848 words。
CVPR 2026 特别篇:为什么 10 年后,ResNet 仍在改写 AI## 本期重点 这期不是单纯盘点 CVPR 2026 获奖论文,而是抓住一条更耐看的主线:AI 的很多关键进步,不只是把模型做大,而是重新设计信息、计算和推理的默认路径。 从十年前的 ResNet residual path,到今年 CVPR Best Paper D4RT 的 4D query path,再到长视频里的 draft-and-verify、扩散模型里的 cache path,这些工作共同指向一个启发:真正经得起时间考验的 idea,往往会从一个架构 trick,变成跨模型、跨系统的设计语言。 ## 时间线 00:00 开场:从 ResNet 作为 Test-of-Time 锚点切入,说明 CVF 奖项档案已列出 ResNet 和 YOLO 为 2026 Longuet-Higgins Prize 论文。 00:31 CVPR 2026 背景:Denver 会场、16,092 投稿、4,089 接收、141 oral、578 highlight、74 篇 award candidate;最终 Best Paper 为 D4RT。 01:11 Deep Residual Learning for Image Recognition ResNet 主线:为什么 identity path / residual path 改变了深层网络默认信息路径,并继续影响 Transformer residual stream、adapter、U-Net skip connection、cache reuse 和 speculative decoding。 03:17 Efficiently Reconstructing Dynamic Scenes One D4RT at a Time CVPR 2026 Best Paper。节目重点解释 D4RT 如何把动态 4D reconstruction 从密集逐帧输出改成统一表示上的时空点查询,并把它连接到“改路径,而不是只堆 decoder”的系统设计思想。 05:17 NitroGen: An Open Foundation Model for Generalist Gaming Agents 官方 Award Candidate / Oral。用 1000 多个游戏、4 万小时 gameplay video 训练通用 vision-action foundation model,代表从静态观察语料到 action-conditioned rollout 的预训练路径变化。 06:29 Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding 官方 Award Candidate / Oral。用轻量 draft MLLM 选择证据帧,再由 target MLLM 验证和推理,作为长视频理解里的 draft-and-verify 路径。 07:40 快速补充:SeaCache 与 VGGT-Ω SeaCache 讨论扩散模型缓存有效性与频谱演化;VGGT-Ω 代表 feed-forward 3D reconstruction 的基础模型接口与内存路径设计。 08:54 3DReflecNet 一线对照 保留为复杂材质数据集的简短背景,不再作为主线段落。 09:11 Takeaways 核心启发:ResNet 的 identity path,D4RT 的 query path,NitroGen 的 trajectory pretraining path,Thinking with Drafts 的 draft/verify path,SeaCache 的 cache path,以及 VGGT-Ω 的几何接口路径,都在回答同一个问题:系统默认让信息怎么走,往往决定了模型能走多远。 ## 论文与链接 - PI-approved WeChat report - Link: https://mp.weixin.qq.com/s/KieRMknWe2ZJx2BNw_0BmA - CVF Computer Vision Awards archive - Link: https://www.thecvf.com/?page_id=413 - Deep Residual Learning for Image Recognition - CVF paper: https://openaccess.thecvf.com/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html - Efficiently Reconstructing Dynamic Scenes One D4RT at a Time - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Zhang_Efficiently_Reconstructing_Dynamic_Scenes_One_D4RT_at_a_Time_CVPR_2026_paper.html - Project page: https://d4rt-paper.github.io/ - NitroGen: An Open Foundation Model for Generalist Gaming Agents - CVPR poster: https://cvpr.thecvf.com/virtual/2026/poster/39333 - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Magne_NitroGen_An_Open_Foundation_Model_for_Generalist_Gaming_Agents_CVPR_2026_paper.html - Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding - CVPR poster: https://cvpr.thecvf.com/virtual/2026/poster/37426 - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Hu_Thinking_with_Drafts_Speculative_Temporal_Reasoning_for_Efficient_Long_Video_CVPR_2026_paper.html - SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models - CVPR poster: https://cvpr.thecvf.com/virtual/2026/poster/38909 - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Chung_SeaCache_Spectral-Evolution-Aware_Cache_for_Accelerating_Diffusion_Models_CVPR_2026_paper.html - VGGT-Ω - CVPR poster: https://cvpr.thecvf.com/virtual/2026/poster/39730 - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Wang_VGGT-ohm_CVPR_2026_paper.html - 3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects - CVPR poster: https://cvpr.thecvf.com/virtual/2026/poster/37703 - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Liang_3DReflecNet_A_Large-Scale_Dataset_for_3D_Reconstruction_of_Reflective_Transparent_CVPR_2026_paper.html ## 制作元信息 - 状态:送审草稿。音频已重新生成,时长 10:18。 - 来源说明:本版按 PI 确认的微信报道重写叙事,奖项和论文事实用 CVPR/CVF 官方页面、CVF Open Access 页面、CVF Computer Vision Awards archive、D4RT project page 交叉核对。 - 微信直读限制:WeChat 页面返回环境/CAPTCHA gate,本地 Camoufox reader 目录缺失miku_ai 未安装。因此本稿记录为“PI-approved WeChat report via snippets/secondary evidence”,不声称已完整抓取原文。 - 奖项来源:CVF awards archive 确认 D4RT 为 CVPR 2026 Best Paper,确认 ResNet 与 YOLO 为 2026 Longuet-Higgins Prize 论文。 - 脚本:29 turns;口播文本 4,305 字符;无口播 URL、Markdown footnote、反引号或 citation clutter。 - TTS:seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_yingyujiaoxue_uranus_bigtts;29 turns,输入 4,305 字符,计费文本 4,305 words。 - 音频处理:原始合成 audio_raw_11m45s.mp3 为 11:45,经 atempo=1.14 和 loudnorm 处理后得到最终 audio.mp3,时长 10:18,24 kHz mono,约 128 kbps。 ## 评论 这期我们不是按获奖名单逐篇报菜名,而是把 ResNet、D4RT、draft-and-verify 和 cache 串成一条方法论主线:真正持久的 AI 进步,常常来自对信息路径和计算路径的重写。 10 年后的 ResNet 仍然重要,是因为它教会了深度模型一个朴素但耐用的原则:先保留稳定通路,再让模型学习必要的增量。
0606 MLSYS 论文简报:Tangram、Continual Learning与 LatentSkill## 内容时间戳 - 00:00 Opening: 0606 MLSYS 论文简报 - 基于 2026-06-05 晚间完成的 arXiv 论文召回与筛选;音频不朗读链接。 - 00:29 Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving - 机构:汉阳大学; Rebellions - 夯到拉评价:顶级(Jeff champion) - 亮点:对,我的 champion 是来自汉阳大学和 Rebellions 的 Tangram,全名是 Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving。背景是这样的:多轮对话场景里,KV cache 会随着对话轮数线性膨胀,对显存和带宽都是巨大压力。 - Link: https://arxiv.org/abs/2606.06302 - 03:15 Rethinking Continual Experience Internalization for Self-Evolving LLM Agents - 机构:中国人民大学高瓴人工智能学院; 北京航空航天大学 - 夯到拉评价:人上人(Ada champion) - 亮点:我选了中国人民大学高瓴人工智能学院和北京航空航天大学的 Rethinking Continual Experience Internalization for Self-Evolving LLM Agents。背景是 self-evolving agent 的一个长期梦想:把过去交互里的 contextual experience,蒸馏成模型权重里的能力,这样 agent 就能持续变强。 - Link: https://arxiv.org/abs/2606.04703 - 05:57 LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents - 机构:上海交通大学; 中山大学 - 夯到拉评价:人上人(Jeff champion) - 亮点:好,第三篇是上海交通大学和中山大学的 LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents。问题背景挺有意思:现在很多 agent 系统会维护一堆 textual skills,就是可复用的任务流程片段,每次调用都塞进 prompt。 - Link: https://arxiv.org/abs/2606.06087 - 10:20 Wrap-up - 总结本期重点论文和后续阅读优先级。 ## 制作元信息 - 论文召回:原始 JSONL 记录 305 篇;新论文 305 篇;带入 backlog 10 篇。 - 筛选链路:新候选 236 篇;backlog 候选 10 篇;粗排 246 篇;LLM 精评 20 篇;本期播客主讲 3 篇;快速提及 6 篇。 - LLM:aws.claude-opus-4.7;input 10756 tokens,output 3359 tokens,总计 14115 tokens。 - TTS:seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_yingyujiaoxue_uranus_bigtts;26 turns,输入 4873 字符,计费文本 4873 words。
0605 MLSYS 论文简报:D²SD、Agent Safe、 LLM Error Propagation# 0605 MLSYS 论文简报 Audio: 09:48 ## 内容时间戳 - 00:00 Opening: 0605 MLSYS 论文简报 - 基于 2026-06-04 晚间完成的 arXiv 论文召回与筛选;音频不朗读链接。 - 00:33 D^2SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models - 机构:北京大学; 清华大学 - 亮点:这篇全名是 D²SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models,第一作者来自北京大学,合作单位还有清华大学。它瞄准的是现在比较流行的 diffusion-based drafter 路线——也就是用扩散模型一次性并行生成一整块 draft token,然后丢给 target model 一次 forward 验证。 - Link: https://arxiv.org/abs/2606.04446 - 03:33 RUBAS: Rubric-Based Reinforcement Learning for Agent Safety - 机构:清华大学; 华为诺亚方舟实验室 - 亮点:下一篇是清华那边出来的 RUBAS: Rubric-Based Reinforcement Learning for Agent Safety,第一作者来自清华大学,合作单位还有华为诺亚方舟实验室。 这是 agent safety 方向? - Link: https://arxiv.org/abs/2606.04051 - 05:25 Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference - 机构:爱荷华大学; 阿贡国家实验室 - 亮点:下面这篇我想聊一下,叫 Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference,第一作者来自爱荷华大学,合作单位还有阿贡国家实验室。已经被 ICS'26 接收。 - Link: https://arxiv.org/abs/2606.02430 - 07:33 Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories - 机构:谷歌研究院; 康奈尔大学 - 亮点:一篇是谷歌研究院和康奈尔大学的 Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories。它提了一个"睡眠"范式,让模型把短期 in-context 记忆通过两个阶段固化进长期参数:一个叫 Memory Consolidation,用 on-policy distillation 加 RL imitation 把小模型的知识"播种"到大模型; - Link: https://arxiv.org/abs/2606.03979 - 08:12 Using Reward Uncertainty to Induce Diverse Behaviour in Reinforcement Learning - 机构:纽约大学; 谷歌 DeepMind - 亮点:最后一篇是纽约大学和谷歌 DeepMind 合作的 Using Reward Uncertainty to Induce Diverse Behaviour in Reinforcement Learning。核心论点是:行为多样性不应该靠 entropy bonus 这种硬塞,而应该作为"对 reward 不确定性的理性回应"自然涌现。 - Link: https://arxiv.org/abs/2606.03962 - 09:18 Wrap-up - 总结本期重点论文和后续阅读优先级。 ## 制作元信息 - 论文召回:原始 JSONL 记录 276 篇;新论文 276 篇;带入 backlog 10 篇。 - 筛选链路:新候选 246 篇;backlog 候选 10 篇;粗排 256 篇;LLM 精评 20 篇;本期播客选讲 5 篇。 - LLM:friday / aws.claude-opus-4.7;input 5420 tokens,output 3569 tokens,总计 8989 tokens - TTS:Volcengine / seed-tts-2.0;Jeff voice zh_male_m191_uranus_bigtts,Ada voice zh_female_vv_uranus_bigtts;34 turns,输入 4405 字符,计费文本 4405 words
0604 Daily arXiv: Agentic RL, Runtime, SpecDecoding# 0603 Daily arXiv Podcast: Agentic RL Systems, Agent Runtime, and Speculative Decoding Audio: 08:40 ## 内容时间戳 - 00:00 Opening: 0603 daily arXiv feed - 今日主线是 agentic RL 系统、LLM agent 运行时,以及两篇引用 PARD 的 speculative decoding 新论文。 - 00:21 Libra: Efficient Resource Management for Agentic RL Post-Training - 作者团队来自 The Chinese University of Hong Kong 和 The Hang Seng University of Hong Kong。 - 重点:agentic RL rollout 会产生长尾、非平稳的工具调用轨迹,静态 GPU 切分会很快失效。 - 方法:全局资源 planner 在 rollout/training 之间动态分配 GPU;C-MLFQ 用工具返回的因果信号做 rollout bucket 路由。 - 亮点:48 张 A800 上最高 3.0x 吞吐提升、2.5x reward 收敛加速,是今天最值得读的系统论文。 - 02:13 Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents - 作者来自 Tsinghua University。 - 重点:把长跑型 LLM agent 抽象成 AgentProcess,用 capability 和 runtime primitive 管理权限。 - 亮点:不是提升 planner 准确率,而是为 agent 提供可调度、可授权、可恢复、可审计的运行时底座。 - 03:25 DriftSched: Adaptive QoS-Aware Scheduling under Runtime Token Drift for Multi-Tenant GPU Inference - 作者是 independent researcher,University of Colorado Colorado Springs alumni。 - 重点:多租户 LLM serving 中,admission-time 输出长度估计和实际输出长度经常漂移,导致队列失衡和尾延迟恶化。 - 亮点:用 runtime feedback 修正 token-budget bias;对 inference serving 调度有参考价值,和 speculative decoding 是正交但可叠加的方向。 - 04:15 Cost-Aware Diffusion Draft Trees for Speculative Decoding - 作者团队来自 Zhejiang University 和 Westlake University。 - Citation watch: cites PARD: Accelerating LLM Inference with Low-Cost Parallel Draft Model Adaptation。 - 重点:传统 diffusion draft tree 只最大化 acceptance length,会自然偏向更大 tree,缺少 budget 选择原则。 - 方法:CaDDTree 直接优化 token throughput,显式建模 draft 和 verification 延迟,并用 unimodal 性质做高效 budget 搜索。 - 亮点:把 speculative decoding 的预算选择变成运行时自适应优化问题。 - 05:48 Hybrid Verified Decoding: Learning to Allocate Verification in Speculative Decoding - 作者团队来自 Thoughtworks 和 Nvidia。 - Citation watch: cites PARD: Accelerating LLM Inference with Low-Cost Parallel Draft Model Adaptation。 - 重点:agentic workload 中,cache/n-gram 等 parameter-free draft source 很便宜,但 payoff 会随生成步骤变化。 - 方法:verification 前预测 accepted length,在 cache draft 和 model-based drafter 之间做选择。 - 亮点:agentic workflow 上平均 2.73x speedup,提示下一步 speculative decoding 需要 runtime draft-source selection。 - 07:18 Other papers: DenoiseRL, RLVR sample difficulty, and FluxMem - DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes - 来自 Fudan University 和 Shanghai Innovation Institute;关注从弱模型错误轨迹中 bootstrap 推理能力。 - Mechanistically Interpreting the Role of Sample Difficulty in RLVR for LLMs - 来自 Beijing Jiaotong University、Ant Group、Northwestern Polytechnical University、University of Leeds、University of Southampton;关注 RLVR 中样本难度的机制解释。 - Rethinking Memory as Continuously Evolving Connectivity - 来自 Zhejiang University、Alibaba Group、MemTensor、Tongji University;把 agent memory 建模为持续演化的连接图。 - 08:12 Wrap-up - 今日重点:Libra 是 agentic RL 资源管理必读;Agent libOS 提供 capability-based runtime 视角;两篇引用 PARD 的工作都指向 runtime adaptive speculative decoding。