翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华WhynotTV Podcast

翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华

123分钟 ·
播放数67414
·
评论数225

本期嘉宾翁家翌。他在 2022 年加入 OpenAI,并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5,你能看到的那些关键跃迁里,都有他的身影;而他最主要的贡献,你可以先记住三个词:强化学习、post-training、infra

但对我来说,翁家翌不只是“把模型做得更强的人”。在成为 OpenAI 研究员之前,他就已经用开源和产品影响过无数人:把知识与资料公开、试图打破信息差;把做工具称作一种“慈善”——在他的价值观里,开源不是履历装饰,而是一种对世界的投入方式:追求的不是掌声,而是 impact。

在这期节目里,我们会从翁家翌的童年经历聊起,走到他在清华与 CMU 的求学与成长,再到他在 2022 年加入 OpenAI 后的亲历:站在 AI 风暴中心的人,到底看见了什么?

这里是 WhynotTV Podcast。现在请和我一起,走进翁家翌的世界。


-----------------------

2:33 - 小时候的翁家翌是什么样的小孩
5:56 - 成长过程中的投资未来的意识
8:10 - 高中计算机竞赛与升学
16:02 - 在清华开源作业与信息差
19:23 - 在本科与强化学习结缘
28:00 - 在Yoshua Bengio组暑研做NLP的经历
30:38 - 对前ChatGPT时代的NLP and RL有什么反思
32:47 - 留学申请季受挫的经历
35:28 - 对固有评价体系的挣脱
41:08 - 天授Tianshou强化学习框架的前世今生
48:07 - tuixue online签证查询系统
49:54 - 追求影响力impact的底层逻辑是什么
56:21 - CMU读研与加入OpenAI的经历
59:46 - 和John Schulman的面试故事
61:54 - 为什么没有考虑读PhD
63:16 - 研究能力和工程能力谁更重要
66:31 - infra的重要性
69:28 - 还会鼓励今天的学生读AI PhD吗
73:13 - 什么是强化学习和post-training(后训练)
74:22 - 加入OpenAI的时候ChatGPT是主线吗
76:01 - 发布ChatGPT前可以想象这样大规模的成功吗
79:18 - 2022年加入OpenAI的初印象是什么
80:52 - OpenAI的人才密度与组织架构
84:09 - GPT强化学习Post-training的前世今生
85:10 - 在2022年做RLHF有什么关键的挑战与突破
87:01 - 大模型工业级RL infra 的挑战
92:08 - 未来5-10年大语言模型的挑战和瓶颈会是是什么
96:30 - 现在的预训练和后训练可以达到AGI吗
98:34 - OpenAI还Open吗
103:30 - OpenAI实现AGI使命的最大挑战是什么
104:02 - 内部视角看Sam Altman被开除的经历
106:37 - 如何看待OpenAI的人才流失
107:43 - OpenAI面对AI竞赛的内部视角
112:48 - 未来与宿命论
118:35 - 考虑过创业吗
120:01 - 希望十年后的自己是什么样的

展开Show Notes
oyihc
oyihc
2026.1.19
在b站看完回到小宇宙,竟然有人质疑主播功底,我来这里也评论一下。WhynotTV制作非常非常用心,这一期是非常非常好的对话,无论换任何一家中文科技媒体,都无法生产这样的内容。没有诘问,没有公式化的问题,没有“A说了什么B怎么看”,没有炫技,没有迟疑和幻觉。对等的交流和思考静静地呈现,让人愿意一直看下去。
Windyy_:主持人tairan是2024的Nvidia Gradute Award得主,全球十位,不知道b站那些小将能懂吗
anymore:是的,在中文环境里已经是非常高质量的了,专业程度也很高。只是感觉受众其实比较少,出圈之后反而会有很多误解
8条回复
家翌提到开源不是为了履历镀金,而是一种对世界的投入方式,这点太戳人了。现在很多人做东西都藏着掖着,但他当年在清华开源作业、做“推学在线”打破信息差,这种把工具当“慈善”的价值观,在现在这种环境下显得特别珍贵,也解释了他后来为什么能去OpenAI做那么大的Impact。
趁暖阳:你不仅哪都在,你的评论甚至在每一个节目的第一位😄
趁暖阳:你怎么哪儿哪儿都在呀?我天哪。
8条回复
杰里德
杰里德
2026.1.17
tuixue绝对是一代留学生的时代记忆,Trinkle出去留学前在知乎上那些华为腾讯阿里的面经现在看也非常有意思
核心模型:人生的“游戏” = 主动选择“评价体系”或构建“评价体系”。

公式:你的行为 + 你所处的评价体系 = 你的价值与归属感

这个模型揭示了所有焦虑、挣扎或笃定的根源。

所以,按照这个逻辑推演,我们的未来是什么样是确定的,而高端玩家会像基因编辑一样创造自己未来的种种可能性。
Fangliangyu
Fangliangyu
2026.1.19
很好奇嘉宾为何有如此宿命论的底层想法。
Windyy_:抽中了基因彩票,从小就很聪明。估计确实没怎么努力,按部就班就有现在很好的成就。so
楚地无雪:我个人觉得宿命论是理所当然的,你的一切都被限制在基因里了。对一个人影响最大的,一是基因,二是环境,但你的环境也是由其他人构成的,其他人也被困在他各自的基因中。所以就是一个基因构成的大牢笼。这方面尼采表述的比我好
6条回复
Yoyo_9586
Yoyo_9586
2026.1.19
53:10 家翌其实不是想要被人记得吧,名留青史不是做事情的目的和内在动力,他前后表达的,应该是在说,很多评价体系是某些群体或者某些人设计的东西,他在意的其实是,对这个现实世界,现实世界里的人有没有帮助,有没有作用,如果有那就是“有影响力的”。paper citation,github的星,也只是这种影响力的一种反馈形式,他追求的不是这些形式所反馈的数字本身,所以如果哪天这些形式不再能反应真实的“对现实世界里人的帮助”了,那就再看看别的反馈形式就好。
小王369
小王369
2026.1.17
能不能反馈下,GPT5.2跟屎一样
狲狲:你要是用的n手+封装屏蔽词+多人share+免费版,那确实不太行
NemoX头:是真的和屎一样 说的难听点一股中国老登味😂
11条回复
LuckyMrya
LuckyMrya
2026.1.18
去忘掉,去体验,未来的你会帮助现在的你做决策。
冷八
冷八
2026.1.20
特德姜《你一生的故事》
Alive_YhWM:之前听其他播客才知道 改编成降临 我很喜欢的一部电影
冷八:这个导演的电影🎬都蛮推荐的
Emily汤
Emily汤
2026.1.17
这睡觉记忆法瘸了,我小孩也这样
ZQ_JjEZ
ZQ_JjEZ
2026.1.17
听到,时代中学,我想起了我的大福州,👍👍
HD644112q
HD644112q
2026.1.18
典型的富生善意!
Sparke
Sparke
2026.1.18
哥们采访里听着一本正经,我去退学online一看那个logo我就没绷住
OutOut:哈哈😄
Yvetteee
Yvetteee
2026.1.20
1:00:51 评价体系对上了,面试看对眼未尝不是评价体系一致符合的一种体现。

最好的结果不是“最优秀的个体”找到“最顶尖的公司”,而是 “最合适的体系”找到了“最同频的另一个体系”。
samomo
samomo
2026.1.19
嘉宾和主持人双强啊,喜欢这样的深度对话,宿命论能单开一期吗~~
盖瑞Gary
盖瑞Gary
2026.1.21
1:42:31 笑死,还要硬撑。其实简单来说就是在商言商。你在这里打工,你要赚企业的工资,你就得让企业赚钱。以现在的状态,对于 OpenAI 来说,开源肯定是没有闭源赚的钱多。
leom_dGYL:有点诡辩了,deepseek无疑比openAI更openAI!
惊扰晨曦:对啊,在商言商,一个公司成立不管初衷多美好,最后都要吃饭,要对手下员工负责,所以seller如此不可替代,造铲子很好,但是造铲子的成本必须cover,你可以理想,但是世界是现实的。
张成博
张成博
2026.1.17
很真诚的表达👍
HD737654z
HD737654z
2026.1.22
宿命论那块真的很有意思!我也相信未来的自己给现在或者曾经的自己留下了一些讯息,让我莫名在一些时刻产生某种安心感或者痛苦感,影响了我的心态或者决定。
anymore
anymore
2026.1.19
希望进一步讨论一下 research idea VS infra 这件事,虽然 idea is cheap ,圈内人都能扔几个 idea 去试试效果,但仍然是要大量的经验才能够产生洞察,才能够产生靠谱的 idea,好的 insight 还是能减少搜索空间的。并且在现在的范式下,要有进一步的突破,还是得靠 research 。可惜嘉宾没有展开讲这个,感觉不是很有说服力
惊扰晨曦:但是,他也说了openai里面不缺乏产生优秀idea的人,可能这才是真正的idea is cheap的原因吧
张成博:一看你就是专业人士。
HD432509j
HD432509j
2026.1.19
18:23 谢谢你,信息平权。GPT我用一年,非常能帮助我。我认为这也是一种信息平权。