对话2026年斯隆奖得主张昊｜MLSys、开源生态工作与来时路 - 涌现Lab

本期「涌现Lab」的嘉宾是UC San Diego助理教授、2026年斯隆研究奖得主张昊。

在大模型开源系统与生态中，vLLM、DistServe、Chatbot Arena、Vicuna等多个具有代表性的项目，都有张昊的参与或主导推动。

他的研究与实践长期围绕模型推理加速、系统架构设计以及多模态生成优化展开，始终聚焦提升模型在真实工作流中的效率与稳定性。

这次对谈，完整呈现了一位青年MLSys学者的来时轨迹和心路历程，以及他对AI Infra的最新观察。

同时，也带来了知名开源项目背后的第一手故事:)

对谈时间线如下：

上半：来时路-MSRA/CMU/SkyLab

1. 早期回溯：“the Era of Research”

03:02 从Robotics到Computer Vision

05:46 12～2014: MSRA实习时光

2. 赴CMU读博，从CV转向MLSys

09:13 Parameter Server、Petuum与System转向

3. Sky Lab博后2年：开源项目的“涌现”

17:25 初试：Alpa系统与OPT模型

20:15 vLLM缘起与insider's story

24:36 大模型评测项目Chatbot Arena

4. Advisor：Eric Xing与Ion Stoica

29:05 Eric Xing：教会我“aim higher”

30:12 Ion Stoica:“start with sth. small”

下半：开源infra、Hao AI Lab与未来远征

5. UCSD新程：Hao AI Lab

33:13 Phd期间初创经历铺垫soft skills

6. 定位：50% ML、50% System

36:54 做System与Infra，从问题出发

38:12 多模态转向：FastVideo、Dreamverse

7. 开源infra社区与商业化

44:12 关键人物/团队发挥重要作用

46:03 当下初创趋势：自然而然的选择

8. 关于AI Infra本身

49:04 训练与推理，本质在解优化问题

52:06 DistServe与PD分离

52:21硬件异构化与Attention-FFN分离

54:45 Agent Infra：context length或带来新前景

9. “Always stay relevant”

57:52 信息过载时代、效率飞轮与Vibe Coding

01:04:54关注方向：Video Gen/World Model与架构相关

01:06:24 欣赏特质：发现新问题与动手实践能力