#509.前字节研究员深度访谈:中国AI的真实差距、刷榜文化与Agent新赛道

#509.前字节研究员深度访谈:中国AI的真实差距、刷榜文化与Agent新赛道

38分钟 ·
播放数2291
·
评论数23

📝 本期播客简介

本期我们克隆了播客《Into Asia》的一期深度对谈A Year Inside ByteDance's AI Lab

【编者述:该内容存在争议,x 上有评论认为该研究者并未接触到字节AI 的核心项目,仅作为信息和视角补充】

主持人 Cheche 与北京大学助理教授、前字节跳动研究员 Chu Chu 坦诚交流了中国人工智能领域的竞争与挑战。Chu Chu 曾深度参与大语言模型的研发,对中美 AI 差距有着一线观察。在节目里,他揭示了中国 AI 公司内部刷榜文化的真相,分析了芯片禁令下数据蒸馏的无奈,并尖锐指出中美 AI 差距其实正在拉大。从字节跳动的 IMO 数学竞赛项目,到北大推理效率算法的新方向,再到具身智能与 AI Agent 的中国机会,这场对话带来了一位圈内人最真实的反思与预判。

👨‍🔬 本期嘉宾

Chu Chu,北京大学助理教授,前字节跳动 Seed 部门研究员,加州大学洛杉矶分校(UCLA)博士。他曾先后在北京通用人工智能研究院(通院)和字节跳动工作,亲历了中国大语言模型从追赶 GPT-4o 到被 DeepSeek 冲击的全过程,目前专注于 AI 推理效率与具身智能的研究。

⏱️ 时间戳

00:00 开场 & 节目简介

嘉宾背景与 AI 之路

01:33 从吴恩达课程到 UCLA 博士

03:10 跟随朱松纯归国:数据驱动与规模假设的争论

04:12 在通院的日子:ChatGPT 如何改变 AI 研究格局

05:51 加入字节跳动:SEED 的诞生与 DeepSeek 的震撼

字节的 AI 战场:刷榜、资源与隐形压力

07:23 “我们以为追上了 GPT-4o,直到 DeepSeek 出现”

08:07 形式化数学与 IMO 金牌项目:公关还是科研?

09:35 SEED 内部结构:LLM、VLM 与数学组的分工

11:04 刷榜文化:基准分数如何定义你的成败

12:35 午休两小时、九小时工作制:字节 AI 研究员的一天

14:11 从银牌到交付:当研究兴趣被工程琐事消磨

17:16 谷歌三个月迭代一轮,我们要半年:速度差距的背后

18:16 特供版 H20、禁运前抢购的 H100:字节的芯片家底

19:43 国产芯片为什么训练用不上?

21:14 追赶者缺乏创新:中美差距真的在缩小吗?

差距拉大的本质:蒸馏、数据与基础设施

21:57 Claude Code 让我不想再招博士生:编程智能体的震撼

22:48 用户反馈循环:美国模型的真正护城河

24:25 离开字节的原因:大厂 LLM 工程其实很无聊

26:04 北大新方向:推理效率提升 5%,就能省下天量成本

27:50 捷径的代价:中国公司为何沉迷数据蒸馏?

29:01 什么是蒸馏?用 GPT 的答案训练自己的模型

30:06 AGI 信仰与现实:智能体如何重构工程师的角色

具身智能与下一代 Agent

31:16 制造业优势:中国可能在具身智能赛道领先

32:20 宇树机器人擅舞却不擅“思”:运动控制与智能操作的鸿沟

33:31 如何让机器拥有灵巧操作的能力?

34:12 Open Claw 与 Vibe Research:当研究生开始让智能体帮自己盯实验

35:23 智能体的隐私陷阱与使用边界

36:17 中国程序员正在用 Claude Code 写中国的大语言模型?

37:05 结语

🌟 精彩内容

💡 中美 AI 差距反而在拉大?

Chu Chu 坦言,尽管在部分基准上中国模型看似追平,但实际体验和智能涌现上的差距仍在扩大。核心原因是用户反馈循环的断裂和基础设施的全面落后。“我认为我们还远远落后,而且差距还在越拉越大,这真的很让人难过。”

💡 刷榜文化才是真正的压力

在字节等大厂,每个团队紧盯着自己负责的基准分数,却没有将表现转化为真实场景中的好用体验。“从论文上看,中国的每一家大厂都有一个不错的模型,但以我自己的使用体验来说,我并不觉得它们真的够好。”

💡 蒸馏:被卡住脖子的中国 AI 在走捷径

为快速获取高质量训练数据,不少中国公司直接查询 GPT、Claude 等模型,将答案塞进自己的训练集。这种蒸馏虽然省时省钱,却让企业迟迟建不起自主的数据管道,形成恶性循环。

💡 推理成本才是烧钱大户

训练模型的成本固然高昂,但 Chu Chu 指出,真正吃掉利润的是部署后的推理算力。“如果能从算法上让推理效率提高一点点,哪怕百分之五,给公司省下的钱也会非常可观。” 这也是他回归北大后的主攻方向。

💡 具身智能:中国的下一张王牌

凭借全球领先的硬件制造能力,尤其在电机和本体方面,中国在具身机器人领域优势明显。但如何让宇树这样的机器人拥有真正的大脑——灵巧地拿起杯子、走进千家万户——仍是待解难题。

💡 智能体正在承包科研工作

他的学生已经开始用 Open Claw 监控模型训练、自动调试 Bug,团队甚至提出“Vibe Research”的概念:设定一个监控任务,就让智能体去完成,自己直接去睡觉。

🌐 播客信息补充

翻译克隆自:

本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的

使用 AI 进行翻译,因此可能会有一些地方不通顺;

如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

展开Show Notes
yikai-
yikai-
2天前
置顶
【编者述:该内容存在争议,x 上有评论认为该研究者并未接触到字节AI 的核心项目,仅作为信息和视角补充】
Xiaowe:在字节混了一年的混子 大言不惭聊中国AI
Baca
Baca
2天前
感谢播主快速满足我的request, 做了这一期节目克隆… 同意免责声明 这个研究者做的不是视频模型 所以他的经历未必代表所有字节模型… 但内部聊字节的访谈几乎没有 而且这个研究者不怕字节追杀的风险 讲了不少内部的负面内容 角度全网估计找不到第二家😂
HD1043062f
HD1043062f
1 天前
22:03 这人没签保密协议吗?作为企业没人会想用这种人吧,除非这是投名状,否则谁录用他都会存在风险
甘丹is:指责别人的时候,不要信口开河吧,可以说说他说的哪一点,影响到了您认为的哪个政治和经济竞争?分享没门槛,诽谤有标准啊。
Baca:节目不是说去北大了吗 朱松纯的学生 找工作应该到哪都挺抢手
8条回复
July_777
July_777
2天前
23:29 并不认同。这里的 C 端用户反馈真能提升模型性能?难道 opus4.7 的编程能力都是靠用户反馈,人人都是程序员吗
伸伸懒腰:用户的实际使用反馈,就是最好的强化学习语料
欢乐马_U1yj:用户的反馈也是优化的方向。就像最近, Anthropic的 4.7 的模型,大家都说降智了,最后就是花了一个月时间,自己承认并解决了
这不是很容易就开核了
Baca:英文原播客有嘉宾真名 不知道是播主改的 还是AI自动匿名处理了 总之他应该是不怕开核
阿臣
阿臣
16小时前
24:09 太爽了什么都说啊?知无不言?
July_777
July_777
2天前
24:35 这里可以参考听一下最近一期的“后互联网时代的乱弹”,cc 上国内模型相比 opus 性能不好,是因为 claude 在 cc 上做了大量优化。
伸伸懒腰:opus是dense模型,和其他sota模型都是moe不一样。相比去他家,Claude需要在cc的中台做大量工程的优化,才能提高实际性能和效率
国产大模型听起来挺让人沮丧的,希望deepseek能杀出一条血路
欢乐马_U1yj:也不至于,这个人的观点或者视野有些片面
Xiaowe
Xiaowe
21小时前
在字节混了一年的混子 呵呵