MLSYS Feed | 小宇宙 - 听播客，上小宇宙

11已订阅

MLSYS Feed

小白超AI算

单集更新

节目详情

0612 MLSYS 论文简报：MTP 加速 RL 训练、Agentic RL 过程级信用分配
## 内容时间戳 - 00:00 Opening: 0612 MLSYS 论文简报 - 基于 2026-06-11 晚间完成的 arXiv 论文召回与筛选；音频不朗读链接。 - 00:39 Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling - 机构：阿里巴巴通义千问团队 - 夯到拉评价：夯（Jeff champion） - 亮点：我今天选出的系统方向重磅论文标题是 Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling。这篇论文来自阿里巴巴通义千问团队，arXiv 编号是 2606.12370。 - Link: https://arxiv.org/abs/2606.12370 - 04:24 APPO: Agentic Procedural Policy Optimization - 机构：中国科学技术大学; 阿里巴巴高德 - 夯到拉评价：夯（Ada champion） - 亮点：好，我挑的这篇是关于智能体强化学习的，标题叫 APPO: Agentic Procedural Policy Optimization。它来自中国科学技术大学和阿里巴巴高德团队，arXiv 编号是 2606.12384。 - Link: https://arxiv.org/abs/2606.12384 - 07:33 Teaching Diffusion to Speculate Left-to-Right - 机构：SB Intuitions（日本） - 夯到拉评价：夯（Ada champion） - 亮点：接下来我们看第三篇，这是一篇非常有探索性、上限极高的论文，标题叫 Teaching Diffusion to Speculate Left-to-Right。它来自日本的 SB Intuitions，arXiv 编号是 2606.11552。 - Link: https://arxiv.org/abs/2606.11552 - 11:43 Wrap-up - 总结本期重点论文和后续阅读优先级。 ## 制作元信息 - 论文召回：原始 JSONL 记录 359 篇；新论文 359 篇；带入 backlog 10 篇。 - 筛选链路：新候选 288 篇；backlog 候选 10 篇；粗排 298 篇；LLM 精评 20 篇；本期播客主讲 3 篇；快速提及 3 篇。 - LLM：gemini-3.5-flash；input 5717 tokens，output 2457 tokens，总计 8174 tokens。 - TTS：seed-tts-2.0；Jeff voice zh_male_m191_uranus_bigtts，Ada voice zh_female_yingyujiaoxue_uranus_bigtts；34 turns，输入 4065 字符，计费文本 4065 words。 ## 本期工作流改进 - 标题改为主题式，不再用日期或「每日新闻」式占位。 - 机构信息统一改用 arXiv PDF 首页核验（六月新论文尚未进入 Semantic Scholar/OpenAlex）。 - 新增对外部声明的事实核查：本期据 PDF 移除了一处未经证实的会议录用说法。
12分钟 · 21小时前
5
0
0611 MLSYS 论文简报：KV Cache Budget、Agentic RL
## 内容时间戳 - 00:00 Opening: 0611 MLSYS 论文简报 - 基于 2026-06-10 晚间完成的 arXiv 论文召回与筛选；音频不朗读链接。 - 00:29 ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models - 机构：清华大学; 香港城市大学 - 夯到拉评价：夯（Jeff champion） - 亮点：对，我挑的这篇 System Champion 论文绝对是当前的及时雨，标题是 ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models。来自清华大学和香港城市大学。 - Link: https://arxiv.org/abs/2606.11164 - 03:15 TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning - 机构：清华大学; 腾讯 - 夯到拉评价：夯（Ada champion） - 亮点：我挑的这篇是 TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning。由清华大学和腾讯联合发表。 - Link: https://arxiv.org/abs/2606.11119 - 06:00 EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents - 机构：上海交通大学; 普林斯顿大学 - 夯到拉评价：顶级（Ada champion） - 亮点：标题是 EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents。由上海交通大学和普林斯顿大学合作，作者里包括了我们熟知的 Mengdi Wang 教授。 - Link: https://arxiv.org/abs/2606.11182 - 08:47 Wrap-up - 总结本期重点论文和后续阅读优先级。 ## 制作元信息 - 论文召回：原始 JSONL 记录 225 篇；新论文 225 篇；带入 backlog 10 篇。 - 筛选链路：新候选 168 篇；backlog 候选 10 篇；粗排 178 篇；LLM 精评 20 篇；本期播客主讲 3 篇；快速提及 2 篇。 - LLM：gemini-3.5-flash；input 5169 tokens，output 1860 tokens，总计 7029 tokens。 - TTS：seed-tts-2.0；Jeff voice zh_male_m191_uranus_bigtts，Ada voice zh_female_yingyujiaoxue_uranus_bigtts；34 turns，输入 3195 字符，计费文本 3195 words。
9分钟 · 2天前
5
0
0610 MLSYS 论文简报：LLM Agent 服务仿真、开放世界自进化与 RLVR 奖励瓶颈
# 0610 MLSYS 论文简报：LLM Agent 服务仿真、开放世界自进化与 RLVR 奖励瓶颈 Audio: 09:11 ## 内容时间戳 - 00:00 Opening: 0610 MLSYS 论文简报 - 基于 2026-06-09 晚间完成的 arXiv 论文召回与筛选；音频不朗读链接。 - 00:24 AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving - 机构：中佛罗里达大学 - 夯到拉评价：顶级（Jeff champion） - 亮点：这篇论文叫 AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving，来自中佛罗里达大学。它解决的是多轮大模型 Agent 服务评估的痛点。 - Link: https://arxiv.org/abs/2606.09613 - 03:17 OpenSkill: Open-World Self-Evolution for LLM Agents - 机构：利哈伊大学; 伊利诺伊大学芝加哥分校 - 夯到拉评价：人上人（Ada champion） - 亮点：我挑选的是 OpenSkill: Open-World Self-Evolution for LLM Agents，合作机构包括利哈伊大学和伊利诺伊大学芝加哥分校。我们一直在谈 Agent 的自进化，但以往的研究都假设存在一个现成的反馈闭环，比如有一套准备好的技能库、成功的轨迹样本或者可靠的自动校验器。 - Link: https://arxiv.org/abs/2606.06741 - 05:59 Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short - 机构：剑桥大学; Mistral AI - 夯到拉评价：NPC（Ada champion） - 亮点：好，那我们接下来看第三篇，这是一篇非常有意思的探索性工作，叫 Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short，由剑桥大学和 Mistral AI 联合发表。这个标题很有意思，Reasoning Arena，推理竞技场。 - Link: https://arxiv.org/abs/2606.09380 - 08:41 Wrap-up - 总结本期重点论文和后续阅读优先级。 ## 制作元信息 - 论文召回：原始 JSONL 记录 262 篇；新论文 262 篇；带入 backlog 9 篇。 - 筛选链路：新候选 199 篇；backlog 候选 9 篇；粗排 208 篇；LLM 精评 19 篇；本期播客主讲 3 篇；快速提及 0 篇。 - LLM：gemini-3.5-flash；input 3536 tokens，output 1836 tokens，总计 5372 tokens。 - TTS：seed-tts-2.0；Jeff voice zh_male_m191_uranus_bigtts，Ada voice zh_female_yingyujiaoxue_uranus_bigtts；26 turns，输入 2974 字符，计费文本 2974 words。 ## 本期变更 - 双主播对白改用 gemini-3.5-flash 生成：解释更清晰、夯到拉评分更严格。 - 当日新论文批次偏弱，算法 champion 由人工复核后选定 OpenSkill。
9分钟 · 3天前
2
1
0609 MLSYS 论文简报：Clairvoyant、Q-Evolve 与 SlimSearcher
# 0609 MLSYS 论文简报 Audio: 09:22 ## 内容时间戳 - 00:00 Opening: 0609 MLSYS 论文简报 - 基于 2026-06-08 晚间完成的 arXiv 论文召回与筛选；音频不朗读链接。 - 00:16 Clairvoyant: Predictive SJF Scheduling to Mitigate Head-of-Line Blocking in Serial LLM Backends - 机构：独立研究者 - 夯到拉评价：顶级（Jeff champion） - 亮点：这篇叫 Clairvoyant: Predictive SJF Scheduling to Mitigate Head-of-Line Blocking in Serial LLM Backends，作者是一位独立研究者。问题背景非常具体：像 Ollama、llama.cpp 这种串行的 LLM 推理后端，本质上是 FCFS 准入，一次只跑一个请求。 - Link: https://arxiv.org/abs/2606.07248 - 03:07 Self-evolving LLM agents with in-distribution Optimization - 机构：埃因霍温理工大学; 利物浦大学 - 夯到拉评价：人上人（Ada champion） - 亮点：我这篇是算法侧的 champion，叫 Self-evolving LLM agents with in-distribution Optimization，作者是埃因霍温理工大学和利物浦大学的团队，方法名叫 Q-Evolve，已经被 ICML 2026 收了。问题是 LLM agent 做长程决策时的 credit assignment：奖励通常只在 episode 末尾给一次，sparse reward 让策略学习非常不稳。 - Link: https://arxiv.org/abs/2606.07367 - 05:45 SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating - 机构：浙江大学; 蚂蚁集团 - 夯到拉评价：顶级（Ada champion） - 亮点：论文叫 SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating，作者来自浙江大学和蚂蚁集团。问题很直接：现在的 deep research agent 在 GAIA、BrowseComp 这种长程信息检索任务上能力很强，但都是暴力解法——盲目调工具、堆冗长 reasoning，token 和 tool call 都极度浪费。 - Link: https://arxiv.org/abs/2606.07074 - 08:52 Wrap-up - 总结本期重点论文和后续阅读优先级。今天的主线是 LLM 系统和 Agent 训练里的效率问题：从串行推理后端的 head-of-line blocking，到 self-evolving agent 的长程 credit assignment，再到 web agent 训练中的 token/tool call 浪费。Clairvoyant 关注调度路径，Q-Evolve 关注自进化 agent 的优化路径，SlimSearcher 则把 deep research agent 的效率问题放进 reward design 里处理。 ## 制作元信息 - 论文召回：原始 JSONL 记录 356 篇；新论文 356 篇；带入 backlog 8 篇。 - 筛选链路：新候选 295 篇；backlog 候选 5 篇；粗排 300 篇；LLM 精评 15 篇；本期播客主讲 3 篇；快速提及 3 篇。 - LLM：claude-opus-4.7；input 9564 tokens，output 3219 tokens，总计 12783 tokens。 - TTS：seed-tts-2.0；Jeff voice zh_male_m191_uranus_bigtts，Ada voice zh_female_yingyujiaoxue_uranus_bigtts；25 turns，输入 3848 字符，计费文本 3848 words。
9分钟 · 4天前
3
1
CVPR 2026 特别篇：为什么 10 年后，ResNet 仍在改写 AI
## 本期重点这期不是单纯盘点 CVPR 2026 获奖论文，而是抓住一条更耐看的主线：AI 的很多关键进步，不只是把模型做大，而是重新设计信息、计算和推理的默认路径。从十年前的 ResNet residual path，到今年 CVPR Best Paper D4RT 的 4D query path，再到长视频里的 draft-and-verify、扩散模型里的 cache path，这些工作共同指向一个启发：真正经得起时间考验的 idea，往往会从一个架构 trick，变成跨模型、跨系统的设计语言。 ## 时间线 00:00 开场：从 ResNet 作为 Test-of-Time 锚点切入，说明 CVF 奖项档案已列出 ResNet 和 YOLO 为 2026 Longuet-Higgins Prize 论文。 00:31 CVPR 2026 背景：Denver 会场、16,092 投稿、4,089 接收、141 oral、578 highlight、74 篇 award candidate；最终 Best Paper 为 D4RT。 01:11 Deep Residual Learning for Image Recognition ResNet 主线：为什么 identity path / residual path 改变了深层网络默认信息路径，并继续影响 Transformer residual stream、adapter、U-Net skip connection、cache reuse 和 speculative decoding。 03:17 Efficiently Reconstructing Dynamic Scenes One D4RT at a Time CVPR 2026 Best Paper。节目重点解释 D4RT 如何把动态 4D reconstruction 从密集逐帧输出改成统一表示上的时空点查询，并把它连接到“改路径，而不是只堆 decoder”的系统设计思想。 05:17 NitroGen: An Open Foundation Model for Generalist Gaming Agents 官方 Award Candidate / Oral。用 1000 多个游戏、4 万小时 gameplay video 训练通用 vision-action foundation model，代表从静态观察语料到 action-conditioned rollout 的预训练路径变化。 06:29 Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding 官方 Award Candidate / Oral。用轻量 draft MLLM 选择证据帧，再由 target MLLM 验证和推理，作为长视频理解里的 draft-and-verify 路径。 07:40 快速补充：SeaCache 与 VGGT-Ω SeaCache 讨论扩散模型缓存有效性与频谱演化；VGGT-Ω 代表 feed-forward 3D reconstruction 的基础模型接口与内存路径设计。 08:54 3DReflecNet 一线对照保留为复杂材质数据集的简短背景，不再作为主线段落。 09:11 Takeaways 核心启发：ResNet 的 identity path，D4RT 的 query path，NitroGen 的 trajectory pretraining path，Thinking with Drafts 的 draft/verify path，SeaCache 的 cache path，以及 VGGT-Ω 的几何接口路径，都在回答同一个问题：系统默认让信息怎么走，往往决定了模型能走多远。 ## 论文与链接 - PI-approved WeChat report - Link: https://mp.weixin.qq.com/s/KieRMknWe2ZJx2BNw_0BmA - CVF Computer Vision Awards archive - Link: https://www.thecvf.com/?page_id=413 - Deep Residual Learning for Image Recognition - CVF paper: https://openaccess.thecvf.com/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html - Efficiently Reconstructing Dynamic Scenes One D4RT at a Time - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Zhang_Efficiently_Reconstructing_Dynamic_Scenes_One_D4RT_at_a_Time_CVPR_2026_paper.html - Project page: https://d4rt-paper.github.io/ - NitroGen: An Open Foundation Model for Generalist Gaming Agents - CVPR poster: https://cvpr.thecvf.com/virtual/2026/poster/39333 - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Magne_NitroGen_An_Open_Foundation_Model_for_Generalist_Gaming_Agents_CVPR_2026_paper.html - Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding - CVPR poster: https://cvpr.thecvf.com/virtual/2026/poster/37426 - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Hu_Thinking_with_Drafts_Speculative_Temporal_Reasoning_for_Efficient_Long_Video_CVPR_2026_paper.html - SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models - CVPR poster: https://cvpr.thecvf.com/virtual/2026/poster/38909 - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Chung_SeaCache_Spectral-Evolution-Aware_Cache_for_Accelerating_Diffusion_Models_CVPR_2026_paper.html - VGGT-Ω - CVPR poster: https://cvpr.thecvf.com/virtual/2026/poster/39730 - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Wang_VGGT-ohm_CVPR_2026_paper.html - 3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects - CVPR poster: https://cvpr.thecvf.com/virtual/2026/poster/37703 - CVF paper: https://openaccess.thecvf.com/content/CVPR2026/html/Liang_3DReflecNet_A_Large-Scale_Dataset_for_3D_Reconstruction_of_Reflective_Transparent_CVPR_2026_paper.html ## 制作元信息 - 状态：送审草稿。音频已重新生成，时长 10:18。 - 来源说明：本版按 PI 确认的微信报道重写叙事，奖项和论文事实用 CVPR/CVF 官方页面、CVF Open Access 页面、CVF Computer Vision Awards archive、D4RT project page 交叉核对。 - 微信直读限制：WeChat 页面返回环境/CAPTCHA gate，本地 Camoufox reader 目录缺失miku_ai 未安装。因此本稿记录为“PI-approved WeChat report via snippets/secondary evidence”，不声称已完整抓取原文。 - 奖项来源：CVF awards archive 确认 D4RT 为 CVPR 2026 Best Paper，确认 ResNet 与 YOLO 为 2026 Longuet-Higgins Prize 论文。 - 脚本：29 turns；口播文本 4,305 字符；无口播 URL、Markdown footnote、反引号或 citation clutter。 - TTS：seed-tts-2.0；Jeff voice zh_male_m191_uranus_bigtts，Ada voice zh_female_yingyujiaoxue_uranus_bigtts；29 turns，输入 4,305 字符，计费文本 4,305 words。 - 音频处理：原始合成 audio_raw_11m45s.mp3 为 11:45，经 atempo=1.14 和 loudnorm 处理后得到最终 audio.mp3，时长 10:18，24 kHz mono，约 128 kbps。 ## 评论这期我们不是按获奖名单逐篇报菜名，而是把 ResNet、D4RT、draft-and-verify 和 cache 串成一条方法论主线：真正持久的 AI 进步，常常来自对信息路径和计算路径的重写。 10 年后的 ResNet 仍然重要，是因为它教会了深度模型一个朴素但耐用的原则：先保留稳定通路，再让模型学习必要的增量。
10分钟 · 5天前
3
1
0606 MLSYS 论文简报：Tangram、Continual Learning与 LatentSkill
## 内容时间戳 - 00:00 Opening: 0606 MLSYS 论文简报 - 基于 2026-06-05 晚间完成的 arXiv 论文召回与筛选；音频不朗读链接。 - 00:29 Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving - 机构：汉阳大学; Rebellions - 夯到拉评价：顶级（Jeff champion） - 亮点：对，我的 champion 是来自汉阳大学和 Rebellions 的 Tangram，全名是 Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving。背景是这样的：多轮对话场景里，KV cache 会随着对话轮数线性膨胀，对显存和带宽都是巨大压力。 - Link: https://arxiv.org/abs/2606.06302 - 03:15 Rethinking Continual Experience Internalization for Self-Evolving LLM Agents - 机构：中国人民大学高瓴人工智能学院; 北京航空航天大学 - 夯到拉评价：人上人（Ada champion） - 亮点：我选了中国人民大学高瓴人工智能学院和北京航空航天大学的 Rethinking Continual Experience Internalization for Self-Evolving LLM Agents。背景是 self-evolving agent 的一个长期梦想：把过去交互里的 contextual experience，蒸馏成模型权重里的能力，这样 agent 就能持续变强。 - Link: https://arxiv.org/abs/2606.04703 - 05:57 LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents - 机构：上海交通大学; 中山大学 - 夯到拉评价：人上人（Jeff champion） - 亮点：好，第三篇是上海交通大学和中山大学的 LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents。问题背景挺有意思：现在很多 agent 系统会维护一堆 textual skills，就是可复用的任务流程片段，每次调用都塞进 prompt。 - Link: https://arxiv.org/abs/2606.06087 - 10:20 Wrap-up - 总结本期重点论文和后续阅读优先级。 ## 制作元信息 - 论文召回：原始 JSONL 记录 305 篇；新论文 305 篇；带入 backlog 10 篇。 - 筛选链路：新候选 236 篇；backlog 候选 10 篇；粗排 246 篇；LLM 精评 20 篇；本期播客主讲 3 篇；快速提及 6 篇。 - LLM：aws.claude-opus-4.7；input 10756 tokens，output 3359 tokens，总计 14115 tokens。 - TTS：seed-tts-2.0；Jeff voice zh_male_m191_uranus_bigtts，Ada voice zh_female_yingyujiaoxue_uranus_bigtts；26 turns，输入 4873 字符，计费文本 4873 words。
11分钟 · 7天前
4
1
0605 MLSYS 论文简报：D²SD、Agent Safe、 LLM Error Propagation
# 0605 MLSYS 论文简报 Audio: 09:48 ## 内容时间戳 - 00:00 Opening: 0605 MLSYS 论文简报 - 基于 2026-06-04 晚间完成的 arXiv 论文召回与筛选；音频不朗读链接。 - 00:33 D^2SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models - 机构：北京大学; 清华大学 - 亮点：这篇全名是 D²SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models，第一作者来自北京大学，合作单位还有清华大学。它瞄准的是现在比较流行的 diffusion-based drafter 路线——也就是用扩散模型一次性并行生成一整块 draft token，然后丢给 target model 一次 forward 验证。 - Link: https://arxiv.org/abs/2606.04446 - 03:33 RUBAS: Rubric-Based Reinforcement Learning for Agent Safety - 机构：清华大学; 华为诺亚方舟实验室 - 亮点：下一篇是清华那边出来的 RUBAS: Rubric-Based Reinforcement Learning for Agent Safety，第一作者来自清华大学，合作单位还有华为诺亚方舟实验室。这是 agent safety 方向？ - Link: https://arxiv.org/abs/2606.04051 - 05:25 Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference - 机构：爱荷华大学; 阿贡国家实验室 - 亮点：下面这篇我想聊一下，叫 Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference，第一作者来自爱荷华大学，合作单位还有阿贡国家实验室。已经被 ICS'26 接收。 - Link: https://arxiv.org/abs/2606.02430 - 07:33 Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories - 机构：谷歌研究院; 康奈尔大学 - 亮点：一篇是谷歌研究院和康奈尔大学的 Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories。它提了一个"睡眠"范式，让模型把短期 in-context 记忆通过两个阶段固化进长期参数：一个叫 Memory Consolidation，用 on-policy distillation 加 RL imitation 把小模型的知识"播种"到大模型； - Link: https://arxiv.org/abs/2606.03979 - 08:12 Using Reward Uncertainty to Induce Diverse Behaviour in Reinforcement Learning - 机构：纽约大学; 谷歌 DeepMind - 亮点：最后一篇是纽约大学和谷歌 DeepMind 合作的 Using Reward Uncertainty to Induce Diverse Behaviour in Reinforcement Learning。核心论点是：行为多样性不应该靠 entropy bonus 这种硬塞，而应该作为"对 reward 不确定性的理性回应"自然涌现。 - Link: https://arxiv.org/abs/2606.03962 - 09:18 Wrap-up - 总结本期重点论文和后续阅读优先级。 ## 制作元信息 - 论文召回：原始 JSONL 记录 276 篇；新论文 276 篇；带入 backlog 10 篇。 - 筛选链路：新候选 246 篇；backlog 候选 10 篇；粗排 256 篇；LLM 精评 20 篇；本期播客选讲 5 篇。 - LLM：friday / aws.claude-opus-4.7；input 5420 tokens，output 3569 tokens，总计 8989 tokens - TTS：Volcengine / seed-tts-2.0；Jeff voice zh_male_m191_uranus_bigtts，Ada voice zh_female_vv_uranus_bigtts；34 turns，输入 4405 字符，计费文本 4405 words
10分钟 · 8天前
14
1
0604 Daily arXiv: Agentic RL, Runtime, SpecDecoding
# 0603 Daily arXiv Podcast: Agentic RL Systems, Agent Runtime, and Speculative Decoding Audio: 08:40 ## 内容时间戳 - 00:00 Opening: 0603 daily arXiv feed - 今日主线是 agentic RL 系统、LLM agent 运行时，以及两篇引用 PARD 的 speculative decoding 新论文。 - 00:21 Libra: Efficient Resource Management for Agentic RL Post-Training - 作者团队来自 The Chinese University of Hong Kong 和 The Hang Seng University of Hong Kong。 - 重点：agentic RL rollout 会产生长尾、非平稳的工具调用轨迹，静态 GPU 切分会很快失效。 - 方法：全局资源 planner 在 rollout/training 之间动态分配 GPU；C-MLFQ 用工具返回的因果信号做 rollout bucket 路由。 - 亮点：48 张 A800 上最高 3.0x 吞吐提升、2.5x reward 收敛加速，是今天最值得读的系统论文。 - 02:13 Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents - 作者来自 Tsinghua University。 - 重点：把长跑型 LLM agent 抽象成 AgentProcess，用 capability 和 runtime primitive 管理权限。 - 亮点：不是提升 planner 准确率，而是为 agent 提供可调度、可授权、可恢复、可审计的运行时底座。 - 03:25 DriftSched: Adaptive QoS-Aware Scheduling under Runtime Token Drift for Multi-Tenant GPU Inference - 作者是 independent researcher，University of Colorado Colorado Springs alumni。 - 重点：多租户 LLM serving 中，admission-time 输出长度估计和实际输出长度经常漂移，导致队列失衡和尾延迟恶化。 - 亮点：用 runtime feedback 修正 token-budget bias；对 inference serving 调度有参考价值，和 speculative decoding 是正交但可叠加的方向。 - 04:15 Cost-Aware Diffusion Draft Trees for Speculative Decoding - 作者团队来自 Zhejiang University 和 Westlake University。 - Citation watch: cites PARD: Accelerating LLM Inference with Low-Cost Parallel Draft Model Adaptation。 - 重点：传统 diffusion draft tree 只最大化 acceptance length，会自然偏向更大 tree，缺少 budget 选择原则。 - 方法：CaDDTree 直接优化 token throughput，显式建模 draft 和 verification 延迟，并用 unimodal 性质做高效 budget 搜索。 - 亮点：把 speculative decoding 的预算选择变成运行时自适应优化问题。 - 05:48 Hybrid Verified Decoding: Learning to Allocate Verification in Speculative Decoding - 作者团队来自 Thoughtworks 和 Nvidia。 - Citation watch: cites PARD: Accelerating LLM Inference with Low-Cost Parallel Draft Model Adaptation。 - 重点：agentic workload 中，cache/n-gram 等 parameter-free draft source 很便宜，但 payoff 会随生成步骤变化。 - 方法：verification 前预测 accepted length，在 cache draft 和 model-based drafter 之间做选择。 - 亮点：agentic workflow 上平均 2.73x speedup，提示下一步 speculative decoding 需要 runtime draft-source selection。 - 07:18 Other papers: DenoiseRL, RLVR sample difficulty, and FluxMem - DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes - 来自 Fudan University 和 Shanghai Innovation Institute；关注从弱模型错误轨迹中 bootstrap 推理能力。 - Mechanistically Interpreting the Role of Sample Difficulty in RLVR for LLMs - 来自 Beijing Jiaotong University、Ant Group、Northwestern Polytechnical University、University of Leeds、University of Southampton；关注 RLVR 中样本难度的机制解释。 - Rethinking Memory as Continuously Evolving Connectivity - 来自 Zhejiang University、Alibaba Group、MemTensor、Tongji University；把 agent memory 建模为持续演化的连接图。 - 08:12 Wrap-up - 今日重点：Libra 是 agentic RL 资源管理必读；Agent libOS 提供 capability-based runtime 视角；两篇引用 PARD 的工作都指向 runtime adaptive speculative decoding。
9分钟 · 9天前
7
1

AI Native 信息类播客推送，arxiv论文检索 + 基于研究兴趣的推荐 + 生成理由