102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”张小珺Jùn|商业访谈录

102. 和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”

149分钟 ·
播放数23749
·
评论数117

今天这集,《商业访谈录》第一次迎来一位co-host,是大家熟悉的李广密。

广密邀请了大模型公司阶跃星辰的首席科学家张祥雨,来聊聊,多模态的前世今生和未来技术的前沿走向。

张祥雨在这集节目详细阐述了:他参与的多模态的10年历史,对多模态的全新思考,以及所预见的下一个“GPT-4时刻”。

他提到一个细节:在训练过程中他曾经发现一件百思不得其解的现象——模型的通用对话能力、情商和知识量都是随着模型变大变得更强,但模型的推理能力(尤其是数学)表现却是先上升后平缓,再扩大反而是下降——这点在业界还未引发广泛讨论。关于这个怪现象,他也给出了自己的解答。

下面是广密和祥雨的聊天。

2025,我们和AI共同进步!

我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
多模态研究的10年史:迷茫和转机

02:00 张祥雨的学术经历和个人研究主线

12:25 CV(计算机视觉)向NLP(自然语言处理)的学习历史

17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观

18:22 纯视觉这个domain有什么问题?GPT这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的

24:23 我停止了对静态图像表征的研究,构思新的研究主题:短期内利用视觉和语言的对齐关系

29:10 经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果——为什么如此难以融合?

38:45 做了大半年十分迷茫,但在此刻出现了转机

训练大模型发现的怪事、蛛丝马迹与办法

41:11 训练过程中发现了一件百思不得其解的怪事:模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降

43:10 一些蛛丝马迹:更大的模型做数学题倾向于跳步,不老实

44:33 经过分析,这是next token prediction的本质缺陷

45:42 更大的压缩率未必对应更高的计算精度,我们来做一个思想实验

47:27 生成模型的“特征坍缩现象”

50:48 解决方案就是引入RL(强化学习)

53:28 o1的核心是思维链的pattern——“做思考模型,pattern is all you need”

01:01:52 当模型走到某一步,摆在面前有两个分支——走左边?还是走右边?——一个token之内到底能不能解决?(critical decision)——不能,所以引入反思pattern

01:10:16 o1范式的本质是一种Meta-CoT ,是CoT的CoT

对多模态研究的新思考和新进展

01:10:57 研究完o1,返回研究为什么视觉生成可控性这么差,就有了眉目

01:15:13 简单把生成和理解做到一起,难度非常大,缺失了重要一环CoT

01:15:54 去年中开启新的project:视觉理解(视觉空间的Long CoT)

01:19:06 尝试了半年,结果给大家透露一下吧!

01:21:30 o系列不仅泛化了domain,更吸引人的是泛化了pattern

01:22:16 博弈类问题是难以泛化的领域,有很多无效思考和低级错误

01:24:07 o1激发的反思pattern,在预训练语料中都有分布了

01:31:31 关于预训练加多模态数据有两种说法:影响了text智商?还是增强了scaling law?

01:36:43 往后两条腿走:扩充预训练语料和扩展动作空间

01:45:42 多模态的“GPT-4时刻”还有多久

预见下一个“GPT-4时刻”

01:46:56 long context和多模型协作

02:07:09 架构不重要,架构是服务算法和系统的(为什么我说Linear Transformer不本质)

02:08:30 下一个“GPT-4时刻”?模型的在线学习/自主学习

02:21:22 澄清一些有关Agent的观点

02:25:00 人虽然没有生成器官,但人有世界模型

02:26:34 我们的智能水平还在为视觉挣扎,机器人领域在抢跑

【更多信息】

联络我们:微博@张小珺-Benita

更多信息欢迎关注公众号:张小珺

展开Show Notes
张小珺
张小珺
2025.6.03
如果大家只听一集播客节目了解多模态,希望是这集🤓
山里灵活的狗都有人注册:这期的收音确实不太好
王强_Andy:确实很硬核,关键是脉络讲得非常清晰,赞👍🏻
5条回复
HD963717x
HD963717x
2025.6.03
内容很感兴趣,能不能修下音
我是小毒:这期内容真的挺好的 但是音质让体验太难了
逍遥游不动了:音质差就忍了,主要是听不清啊🤦‍♂️
墨翕Lyn
墨翕Lyn
2025.6.03
其实这一期信息量很大,值得反复体会。嘉宾是真的专业度很高,既有学术的思路和洞察,也有充分的工业实践和经验,既给出了相对high level的洞见,也有具体实践给出来的经验教训。
在这个前提下,音质问题忍了,放慢速度仔细听。
禹创
禹创
2025.6.03
期待文字稿
TingCraft
TingCraft
2025.6.05
这集内容音质调动了我全部的多模态理解力^_^
Baca
Baca
2025.6.04
这期嘉宾无私的分享的真的非常好 属于虽然有损音质 但也是必听的推荐…尤其是分享了大模型训练研究过程中的面对种种问题挫折再解决的过程~ 这是非常有价值的~其实很多专家的采访就像播客中探讨的next token prediction直线推理一样…只分享自己的成功和正确的判断 而将踩过的坑self-reflection这部分都一笔带过…其实这部分踩坑爬坑的经历都是非常有价值的部分
西布
西布
2025.6.03
1声音不清楚。2只是陈述,没有思想交锋。
Mr_Curiosity:能和嘉宾直接思想交锋的人可能不多... 嘉宾分享的不断试错不断否定的过程本身就非常有价值
FUCKORN:这是纯教学局吧
cmw_swQi
cmw_swQi
2025.6.04
1:11:48 单步的最大复杂度是否超过模型transformer token的复杂度很有启发,比较本质
xindong_sT8n:认同。 不过vlm做内部决策时,是否真的是一个一个token决策,还是内部有了决策方向,但一次只输出一个token呢
字节:内部是有规划的,anthropic这块研究比较多
cmw_swQi
cmw_swQi
2025.6.04
这里很有启发,next token prediction体现了某种效率优先的原则,所以目前在编码,文本总结压缩这些任务上是非常好用的工具,但是在数学和语义丰富保持上是取舍了
reddream
reddream
2025.6.03
嘉宾有很强的洞察力,听起来很有收获。不过录音质量似乎可以提升
HD621579t
HD621579t
2025.6.03
内容很好,但声音效果太差了。
这样好的内容出现在这个频道,就证明这个频道是AI时代必须关注的频道了
阿白_kA7N
阿白_kA7N
2025.6.05
声音听着太难受了。
找了个工具声音转文字,再ai朗读都好多了。
期待官方文字稿
扬_GtaD
扬_GtaD
2025.6.04
是录音设备不好还是他低音炮啊?一直听一直皱眉。
kun_2ATw
kun_2ATw
2025.6.04
47:13 这里解释跳步的思考,有意思有道理
王强_Andy
王强_Andy
2025.6.04
48:43 跟人脑机制太像了 哈哈 盲目自信和节省资源
却东
却东
2025.6.04
1:05:56 项羽老师对于o系列模型的理解我不太能赞同,反思何以被理解为裁剪动作空间... 任何学习(不限于反思)都是在裁剪动作空间,裁剪动作空间(塑造模型的energy landscape)也不必通过反思来进行。裁剪几乎全部在预训练完成(对比一下预训练和rl的信息量),rl是蛋糕上的樱桃,预训练才是蛋糕的主体
XiangyuZhang:抱歉这里我可能没表达清楚。你的理解是对的,动作空间的裁剪主要发生在预训练阶段。我想表达的意思是,预训练阶段有过度裁剪的倾向,导致预训练完毕的模型缺少反思pattern(因为预训练里反思数据很少),从而直接在basemodel基础上用rl激发反思的难度较大。但如果在rl之前做反思数据的冷启动,将反思这个动作补回去,rl的效率可明显提升。并不是“反思在裁剪动作空间”。
xindong_sT8n:1:11:48 做决策时所需要的复杂度可能会超过模型单个token的计算复杂度以此来证明多输出token多试错的必要性。关于这个观点,我有个疑问请教一下祥雨老师: llm做决策时,是真的一次一个token吗?会不会是在输出这个有决定性作用的token之前几个token已经计算完接下来的一串token了呢?就像人们说话,脑袋中已经提前想好一句话了,只是一个字一个字的说。不能说关键字的思考只发生在上个字和这个字之间的时间段? 望祥雨老师不吝赐教
阿诺德
阿诺德
2025.6.10
1:08:06 非常有启发的一集!顺着祥雨博士对o系列的思考补充一个RL视角的理解。RL对这种探索空间巨大且奖励稀疏的问题是非常无力的,从头开始训需要巨量样本。预训练或冷启动提供了一个很好的初始策略,此时用RL微调就容易找到一个更好的策略。
糟糕的音质毁了这期这么好的内容。
却东
却东
2025.6.03
0:59:00 预训练就是在塑造模型的energy landscape,数据所在的位置成为深深的峡谷,其余的位置成为耸立的山峰。