翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华

123分钟 ·5个月前

99876

274

本期嘉宾翁家翌。他在 2022 年加入 OpenAI，并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5，你能看到的那些关键跃迁里，都有他的身影；而他最主要的贡献，你可以先记住三个词：强化学习、post-training、infra。

但对我来说，翁家翌不只是“把模型做得更强的人”。在成为 OpenAI 研究员之前，他就已经用开源和产品影响过无数人：把知识与资料公开、试图打破信息差；把做工具称作一种“慈善”——在他的价值观里，开源不是履历装饰，而是一种对世界的投入方式：追求的不是掌声，而是 impact。

在这期节目里，我们会从翁家翌的童年经历聊起，走到他在清华与 CMU 的求学与成长，再到他在 2022 年加入 OpenAI 后的亲历：站在 AI 风暴中心的人，到底看见了什么？

这里是 WhynotTV Podcast。现在请和我一起，走进翁家翌的世界。

-----------------------

2:33 - 小时候的翁家翌是什么样的小孩
5:56 - 成长过程中的投资未来的意识
8:10 - 高中计算机竞赛与升学
16:02 - 在清华开源作业与信息差
19:23 - 在本科与强化学习结缘
28:00 - 在Yoshua Bengio组暑研做NLP的经历
30:38 - 对前ChatGPT时代的NLP and RL有什么反思
32:47 - 留学申请季受挫的经历
35:28 - 对固有评价体系的挣脱
41:08 - 天授Tianshou强化学习框架的前世今生
48:07 - tuixue online签证查询系统
49:54 - 追求影响力impact的底层逻辑是什么
56:21 - CMU读研与加入OpenAI的经历
59:46 - 和John Schulman的面试故事
61:54 - 为什么没有考虑读PhD
63:16 - 研究能力和工程能力谁更重要
66:31 - infra的重要性
69:28 - 还会鼓励今天的学生读AI PhD吗
73:13 - 什么是强化学习和post-training（后训练）
74:22 - 加入OpenAI的时候ChatGPT是主线吗
76:01 - 发布ChatGPT前可以想象这样大规模的成功吗
79:18 - 2022年加入OpenAI的初印象是什么
80:52 - OpenAI的人才密度与组织架构
84:09 - GPT强化学习Post-training的前世今生
85:10 - 在2022年做RLHF有什么关键的挑战与突破
87:01 - 大模型工业级RL infra 的挑战
92:08 - 未来5-10年大语言模型的挑战和瓶颈会是是什么
96:30 - 现在的预训练和后训练可以达到AGI吗
98:34 - OpenAI还Open吗
103:30 - OpenAI实现AGI使命的最大挑战是什么
104:02 - 内部视角看Sam Altman被开除的经历
106:37 - 如何看待OpenAI的人才流失
107:43 - OpenAI面对AI竞赛的内部视角
112:48 - 未来与宿命论
118:35 - 考虑过创业吗
120:01 - 希望十年后的自己是什么样的

展开Show Notes

oyihc

2026.1.19

188

在b站看完回到小宇宙，竟然有人质疑主播功底，我来这里也评论一下。WhynotTV制作非常非常用心，这一期是非常非常好的对话，无论换任何一家中文科技媒体，都无法生产这样的内容。没有诘问，没有公式化的问题，没有“A说了什么B怎么看”，没有炫技，没有迟疑和幻觉。对等的交流和思考静静地呈现，让人愿意一直看下去。

Windyy_:主持人tairan是2024的Nvidia Gradute Award得主，全球十位，不知道b站那些小将能懂吗

anymore:是的，在中文环境里已经是非常高质量的了，专业程度也很高。只是感觉受众其实比较少，出圈之后反而会有很多误解

共8条回复

喜欢吃牛筋丸的杰哥

2026.1.17

183

家翌提到开源不是为了履历镀金，而是一种对世界的投入方式，这点太戳人了。现在很多人做东西都藏着掖着，但他当年在清华开源作业、做“推学在线”打破信息差，这种把工具当“慈善”的价值观，在现在这种环境下显得特别珍贵，也解释了他后来为什么能去OpenAI做那么大的Impact。

小八快练背:你不仅哪都在，你的评论甚至在每一个节目的第一位😄

小八快练背:你怎么哪儿哪儿都在呀？我天哪。

共9条回复

杰里德

2026.1.17

tuixue绝对是一代留学生的时代记忆，Trinkle出去留学前在知乎上那些华为腾讯阿里的面经现在看也非常有意思

细节女士新北深

2026.1.18

核心模型：人生的“游戏” = 主动选择“评价体系”或构建“评价体系”。

公式：你的行为 + 你所处的评价体系 = 你的价值与归属感

这个模型揭示了所有焦虑、挣扎或笃定的根源。

所以，按照这个逻辑推演，我们的未来是什么样是确定的，而高端玩家会像基因编辑一样创造自己未来的种种可能性。

Yoyo_9586

2026.1.19

53:10 家翌其实不是想要被人记得吧，名留青史不是做事情的目的和内在动力，他前后表达的，应该是在说，很多评价体系是某些群体或者某些人设计的东西，他在意的其实是，对这个现实世界，现实世界里的人有没有帮助，有没有作用，如果有那就是“有影响力的”。paper citation，github的星，也只是这种影响力的一种反馈形式，他追求的不是这些形式所反馈的数字本身，所以如果哪天这些形式不再能反应真实的“对现实世界里人的帮助”了，那就再看看别的反馈形式就好。