EP03 对话vLLM联创Woosuk|75k+ Stars背后:为何推理基建必须“以用户为中心”?The AM Podcast

EP03 对话vLLM联创Woosuk|75k+ Stars背后:为何推理基建必须“以用户为中心”?

50分钟 ·
播放数14
·
评论数0

Woosuk Kwon 他是 GitHub 斩获 75k+ Stars 的开源推理引擎 vLLM 的联合创作者,也是 AI 推理公司 Inferact 的 CTO。关于AI推理的视频的资料有很多,但在这一期对话里,Woosuk将视角从“技术实现”转向“用户价值”,深度分享如何以用户为中心构建大模型推理基建,并前瞻推演推理技术的下一波前沿。

时间轴(Outline):

0:00 - 引言:介绍Woosuk Kwon

3:00 - Woosuk的第一个博士课题

6:00 - vLLM诞生记

9:18 - AI基础设施:效率之外,还需要什么?

14:08 - 当AI基建遇见"以人为本"的AI理念

15:01 - 开源项目如何做需求优先级决策?

18:18 - 流式请求与实时API (Streaming Requests and Real-time API)

24:05 - 多轮对话、智能体、主动式LLM:推理架构的新挑战

27:03 - 如何系统性地设计AI基础设施

29:13 - 面向RL持续学习的推理引擎

35:05 - LoRA微调会如何影响RL推理基础设施的设计?

37:28 - 为何创立AI推理初创公司?

40:46 - "零门槛推理":开源模型如何真正赋能开发者

43:46 - 关于端侧AI推理的看法

46:19 - 今天的编程Agent,能写出下一个vLLM吗?

参考文献:

Inferact公司官网: inferact.ai

Efficient Memory Management for Large Language Model Serving with PagedAttention: arxiv.org

Streaming Requests & Realtime API in vLLM: vllm.ai

RL’s Razor: Why Online Reinforcement Learning Forget Less: arxiv.org