EP03 对话vLLM联创Woosuk｜75k+ Stars背后：为何推理基建必须“以用户为中心”？ - The AM Podcast

Woosuk Kwon 他是 GitHub 斩获 75k+ Stars 的开源推理引擎 vLLM 的联合创作者，也是 AI 推理公司 Inferact 的 CTO。关于AI推理的视频的资料有很多，但在这一期对话里，Woosuk将视角从“技术实现”转向“用户价值”，深度分享如何以用户为中心构建大模型推理基建，并前瞻推演推理技术的下一波前沿。

时间轴（Outline）:

0:00 - 引言：介绍Woosuk Kwon

3:00 - Woosuk的第一个博士课题

6:00 - vLLM诞生记

9:18 - AI基础设施：效率之外，还需要什么？

14:08 - 当AI基建遇见"以人为本"的AI理念

15:01 - 开源项目如何做需求优先级决策？

18:18 - 流式请求与实时API (Streaming Requests and Real-time API)

24:05 - 多轮对话、智能体、主动式LLM：推理架构的新挑战

27:03 - 如何系统性地设计AI基础设施

29:13 - 面向RL持续学习的推理引擎

35:05 - LoRA微调会如何影响RL推理基础设施的设计?

37:28 - 为何创立AI推理初创公司？

40:46 - "零门槛推理"：开源模型如何真正赋能开发者

43:46 - 关于端侧AI推理的看法

46:19 - 今天的编程Agent，能写出下一个vLLM吗？

参考文献:

Inferact公司官网: inferact.ai

Efficient Memory Management for Large Language Model Serving with PagedAttention: arxiv.org

Streaming Requests & Realtime API in vLLM: vllm.ai

RL’s Razor: Why Online Reinforcement Learning Forget Less: arxiv.org