Woosuk Kwon 他是 GitHub 斩获 75k+ Stars 的开源推理引擎 vLLM 的联合创作者,也是 AI 推理公司 Inferact 的 CTO。关于AI推理的视频的资料有很多,但在这一期对话里,Woosuk将视角从“技术实现”转向“用户价值”,深度分享如何以用户为中心构建大模型推理基建,并前瞻推演推理技术的下一波前沿。
时间轴(Outline):
0:00 - 引言:介绍Woosuk Kwon
3:00 - Woosuk的第一个博士课题
6:00 - vLLM诞生记
9:18 - AI基础设施:效率之外,还需要什么?
14:08 - 当AI基建遇见"以人为本"的AI理念
15:01 - 开源项目如何做需求优先级决策?
18:18 - 流式请求与实时API (Streaming Requests and Real-time API)
24:05 - 多轮对话、智能体、主动式LLM:推理架构的新挑战
27:03 - 如何系统性地设计AI基础设施
29:13 - 面向RL持续学习的推理引擎
35:05 - LoRA微调会如何影响RL推理基础设施的设计?
37:28 - 为何创立AI推理初创公司?
40:46 - "零门槛推理":开源模型如何真正赋能开发者
43:46 - 关于端侧AI推理的看法
46:19 - 今天的编程Agent,能写出下一个vLLM吗?
参考文献:
Inferact公司官网: inferact.ai
Efficient Memory Management for Large Language Model Serving with PagedAttention: arxiv.org
Streaming Requests & Realtime API in vLLM: vllm.ai
RL’s Razor: Why Online Reinforcement Learning Forget Less: arxiv.org

