73. AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL|全球大模型季报4张小珺Jùn|商业访谈录

73. AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL|全球大模型季报4

87分钟 ·
播放数21631
·
评论数109

今天这集是我和广密【全球大模型季报】第4集。这期2024年Q3季报,提前和大家见面。

我们正进入的9月会是AGI的一个大月,OpenAI造势已久且绝密的项目“草莓(Strawberry)”将在不久后揭开它神秘的面纱。此外,Anthropic也会推出Claude 3.5 Opus,这两个模型将是AGI进程是否顺利的关键风向标。

这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。

本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移,self-play RL(强化学习)开启了新赛道。大部分人还没意识到,在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后,多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上:self-play RL(自博弈强化学习)。只不过,这个范式转移还未形成共识。Self-play RL到底是什么?它如何有别于传统路径?它能成为继续Scaling Law的一把神奇钥匙吗?

这集节目是关于self-play RL的一篇高质量科普,也希望为大模型从业者带来方向性的启发。

除了self-play RL,我们着重探讨了硅谷一级市场的明星赛道(Coding、视频生成、通用机器人),以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态,并且能持续给大家带来启示。

本集是《张小珺Jùn|商业访谈录》和《海外独角兽》的串台节目。
我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
坏的推演猜测,GPT-5不乐观;好的推演猜测,RL开启新赛道
  • 02:30 语言模型预训练的范式或许遇瓶颈,模型scaling边际效益开始递减
  • 05:21 为什么不一定能支持模型在GPT-4o基础上大幅跃升?现在处于“真空死亡地带”?
  • 06:43 我最担心的是,纯靠语言模型的经典Scaling Law /Pre train这个物理规律遇到瓶颈,或者在更大参数比如2-3T以上的情况下开始失效了
  • 09:37 如果scaling law在模型变大的过程中不work,现在有三条潜在路径:1、多模态尤其是视觉(但还没有证据说能从视觉模态训练涌现智能能力);
  • 2、10万卡集群(但10万卡集群充分互联的难度比预期难,可能是全人类最难的项目之一);
  • 3、强化学习self-play RL(这是范式级别的大转变!)
  • 12:53 如果我是AI公司CEO,我会200%资源all in RL这条路
  • 13:40 概念解释:Reinforcement Learning,简称RL,中文强化学习(Ilya用一句话概括强化学习:让AI用随机路径去尝试一个新任务,如果效果超出预期,就更新神经网络的权重让AI记得多使用成功的实践,再开始下一次尝试)
  • 19:05 代码和数学可以变得很强,能不能泛化到更多领域没有证据
  • 22:39你也可以把语言和预训练比作人类基因组,携带着人类几千年进化的基因,强化学习RL就是人类成长的一生
  • 24:55 必须很聪明的模型才能有能力做self-play RL的探索
  • 27:07 Anthropic Claude 3.5是这一波标志性的产品,他们不搞Sora/搜索,主线是RL;业内少数人意识到RL的重要性是最近两个月
  • 28:35 硅谷明星公司现阶段的资源投入?1-2家公司把RL当作最高优先级
  • 28:56 2024年9月OpenAI和Anthropic即将要发布的,什么值得期待?
  • 29:42 AGI范式大转移之下,还会有GPT-6和GPT-7吗?(可能明年会看到很小的模型比今天GPT-4o要聪明非常多,一个期待是实现AGI不一定需要巨量参数的模型)
  • 30:33 新范式的困境和卡点
  • 32:52 Character.AI出售给Google预示AGI竞赛上半场结束,下半场开始,创始人Noam从Google进入self-play RL下半场
  • 34:36 新范式下,还需要那么多GPU吗?很多人关心英伟达股价
  • 37:06 AGI范式转移只在最核心的researcher中有共识,几百人,还没扩散
  • 38:55 Claude 3.5 Sonnet显著提升,带动了编程工具Cursor的火爆出圈
  • 40:08 OpenAI在造势的草莓、Q*,猜测背后都是强化学习RL
  • 41:55 国内公司应该应该all in 200%跟进RL
  • 42:44 语言模型和RL是乘级关系
硅谷AI一级市场的四个明星赛道
  • 45:12 硅谷的AI赛道:围绕LLM周边有3-4个圈,搜索、代码Coding、视频、机器人
  • 1、Coding:在硅谷出现了4-5家独角兽(Devin、Augment 、Magic、Poolside,都已经20-30亿美元估值),最近编程工具Cursor出圈
  • 2、  视频:这个赛道诱人,但格局不稳定、决胜窗口长
  • 3、通用机器人:想赌具身领域也有个OpenAI,现在是基础科学突破的问题,没看到在机器人领域的“通用泛化能力”出现
  • 57:00 美国通用机器人的明星项目(Pi、The Bot是业界公认最头部的项目,除此之外融资金额很大、声量也比较高的是Skild AI、Figure AI)
  • 58:31 国内vs硅谷机器人:硅谷投robot foundation model一个大脑,像Andorid;在国内投整机,OV和小米
  • 01:01:56 LLM->多模态->具身智能->世界模型,这是AI发展路径
  • 01:05:54 LLM vs 移动互联网,叙事逻辑是什么?哪些明线与暗线?
  • 01:07:04 有没有可能,今天不做强化学习的公司未来都跑不出来
  • 01:08:05 站在现在,重新评论一下中国LLM?“月亮和六便士”
OpenAI和科技巨头
  • 01:12:37 OpenAI
  • 1、有点浪费技术领先的红利,产品没接住
  • 2、联合创始人Greg Brockman、John Schumann离职
  • 3、Ilya离开应该是bet on两个路线(多模态/强化学习,大概率是RL)
  • 01:17:10 Q*和草莓和RL应该是一件事,草莓是代号,RL是方法
  • 01:18:07 回答红杉美国合伙人 David Cahn发布最新文章《AI’s $600B Question》
  • 01:20:00 在2024年Q3,AI叙事还有哪些非共识?
  • 01:22:45 Character.AI之后,哪些AI公司还会被收购?做个预测
  • 01:23:38 2000年互联网hype破灭后只留下Amazon一家公司,今天AI hype如果破灭了,谁是下一个Amazon?
  • 01:24:24 AGI第一幕是科技巨头受益,第二幕还没完全展开

【全球大模型季报】系列

2023年:口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观

2024年Q1:和广密聊AGI大基建时代:电+芯片=产出智能

2024年Q2:口述全球大模型这半年:Perplexity突然火爆和尚未爆发的AI应用生态

【更多信息】

联络我们:微博@张小珺-Benita,小红书@张小珺jùn

更多信息欢迎关注公众号:张小珺

展开Show Notes
庄明浩
庄明浩
2024.9.05
感谢guangmi和小珺每个季度更新ai进展
张小珺
张小珺
2024.9.05
最新大模型季报出炉。“如果一个季度只收听一期关于全球大模型的播客,听这期就够了。”😃
晨萱I语迟者说:确实,虽然不少单集的播客聊 AI 也很好,但在想 聊 AI 的播客时,只有这档张小珺访谈
momomoss01
momomoss01
2024.9.05
**一句话总结**: 硅谷AGI领域正在经历范式转移,强化学习(RL)成为新的突破方向,而大语言模型(LLM)可能遇到瓶颈。

**观点整理与阐释**:

1. **AGI范式转移**: 笔记中提到,硅谷AGI领域正在经历范式转移,从单纯依赖语言模型预训练转向强化学习(RL)。这表明,传统的LLM预训练方法可能遇到瓶颈,需要新的方法来推动AGI发展。
2. **强化学习(RL)的重要性**: 笔记强调了RL在AGI发展中的重要性,认为RL是让AI进行自主探索和连续决策的关键方法,更接近人类学习方式。Self Play RL通过让AI自主探索任务,并根据结果更新神经网络权重,从而提升模型的逻辑推理能力。
3. **LLM预训练的瓶颈**: 笔记指出,LLM预训练可能遇到瓶颈,主要体现在参数规模、数据量和算力等方面。例如,目前模型参数规模难以大幅提升,高质量数据获取困难,算力提升有限等。
4. **多模态与十万卡集群**: 笔记提到了两种可能的突破路径:多模态和十万卡集群。多模态结合语言和视觉等多种模态数据,可能带来交互能力和逻辑推理能力的提升。十万卡集群则通过提升算力来推动模型发展,但面临技术和管理上的挑战。
5. **RL的关键要素**: 笔记认为,RL的关键要素包括环境和智能体。环境提供AI探索和完成任务的空间,智能体则根据环境变化进行决策并获取奖励。
6. **RL与LLM的互补关系**: 笔记指出,LLM是进行RL的必要条件,因为只有足够聪明的模型才能进行有效的探索。同时,RL也能为LLM提供新的训练数据,形成良性循环。
7. **RL的应用前景**: 笔记认为,RL在代码和数学领域具有确定性较高的应用前景,但在其他领域则需要解决奖励模型设计等问题。未来,RL可能推动编程能力的民主化,并应用于各个垂直领域。
8. **硅谷AI赛道**: 笔记将硅谷AI赛道分为大语言模型、搜索、代码、视频和机器人等几个方向。其中,代码和视频被认为是具有巨大潜力的赛道,可能诞生新的巨头公司。
9. **通用机器人**: 笔记认为,通用机器人领域的技术突破尚需时日,目前更多处于研究阶段。中国公司在硬件制造方面具有优势,但需要与AI能力结合才能取得突破。
10. **中国LLM公司**: 笔记指出,中国LLM公司在模型技术上与硅谷公司差距不大,但在产业化落地和AGI研究方面还有待加强。
11. **OpenAI的商业化**: 笔记认为,OpenAI在商业化方面存在一些问题,例如技术领先优势未能有效转化为产品或商业优势,以及人才流失等。
12. **AI对市场的影响**: 笔记认为,AI将重构现有市场,推动老公司商业模式升级,并可能诞生新的巨头公司。

**总结**: 笔记描绘了AGI领域正在经历的范式转移,并探讨了RL在AGI发展中的重要性。同时,笔记也分析了LLM预训练的瓶颈,以及代码、视频和机器人等AI赛道的应用前景。
SW-ShawnWang:这是ai总结的嘛
momomoss01:是的
5条回复
投资人最擅长的就是拿着半截就开跑,把自己似懂非懂的事情快速形成共识
HD321933z
HD321933z
2024.9.08
这个嘉宾思维太跳跃了,逻辑好差,经常讲着A聊到B就开始讲B了,顺便带到C又开始讲C了,结果其实A还没讲完没讲清楚。这个毛病我太清楚了,因为我也有,根本原因还是懂得不够深,每个点都浅尝辄止打不透。
Guangmi:刚开始学习,希望启发大家多讨论,有些思考应该对大家有帮助。多讨论知识,对事儿不对人
HD321933z:当然当然,对事不对人,你的上一期节目我听过蛮好的,这一期听起来比较凌乱
sanbai_
sanbai_
2024.9.06
嘉宾把 cursor 的成功全部归因于 Claude 模型有失偏颇。
你可以把内置的模型换成别的,比如 deepseek 同样好用。
cursor 是怎么做的他们在技术博客里也透露过一些,可以看出来对编辑代码这个行为比竞品有更深的理解。
Yvaine_Pan:求链接啊啊啊这个很重要
Joes东
Joes东
2024.9.14
这哥们一直很厉害 又是提前开盒了o1的技术方向 感谢主播和嘉宾
投资就是非共识,讨论区质疑的人多很正常,都同意听的价值就没有了。支持广密加大分享密度!
frank_ocean
frank_ocean
2024.9.05
guangmi是国内极少数真正站在全球视角看AI的。paraphrase一下就是有situational awareness
飞天_AO7
飞天_AO7
2024.9.06
真是太精彩了,反复听,今天这个知识密度真的值得听上十几遍,我对很多问题要边听边去搜索和学习才能听明白,然后信息的密度非常大,就像评论里有观众说的,如果要听AI最近进展的话,听这一期就够了。强化学习很早就提到过,但是真的把它当做饭吃也要到了scaling law到了极限的时候,现在好像就是处于这样一个临界点,原以为大语言模型走到目前的这个状态,就是不停的堆参数和堆新模型对算力,没想到原来暗线就已经出来了。强化学习是新的范式和方向。最近还看到新闻里提到要在外太空建设集群中心,方便散热和太阳能的收集,这个想法真的很不错,感觉除了核聚变可控的以及传统的解决能源算力的方法外,又多了一条新路径
长征2024
长征2024
2024.9.08
rl能够商业化落地的前提是必须有一个封闭的环境,像游戏、围棋、甚至是数学几何证明、某些具体的家务等,但是不可能泛化,面对开放式的环境,rl玩不转,短期内靠rl不可能通往AGI
orangeai
orangeai
2024.9.10
Note on 广密播客 Q3
预训练增长曲线平滑,Scaling Law 的范式变化。
RL 是接下来的重点,不做好 RL 的模型公司可能就没机会了。
RL 可以单点突破代码和数学
Coding 局部 AGI
Coding 大众化
视频大众化
游戏领域落地
meta 眼镜采集的是机器人第一视角的数据
机器人,从刚需场景机器人入手,通用还是会远一些。
超预期的公司:Claude 和 PPLX
中国对4G 5G的投资都是七八千亿,对 AI 的投资呢,其实很少。
AI 改变了生产力,但是并未改变生产关系,并未改变消费和分发。消费和分发还是掌握在大公司手里,所以 AI 对大公司的作用更大。
GZXD
GZXD
2024.9.09
1:11:55 从这个时间点开始,讲了3分钟非常精彩的一段
追希
追希
2024.9.06
很用心,干货太多了,几乎每期必跟
JASting
JASting
2024.9.06
1:10:38基础研究是在社会在资本富足后的奢侈品。国内LLM模型没有拉开差距,还是因为基础研究不够厚。没有投入基础研究,是因为ROI低,失败后一无所获。
欢喜HD
欢喜HD
2024.9.05
太幸福了!!简直是最好的时代!!!
O1发布,回来了在学习下这一期
星河_HqwO
星河_HqwO
2024.9.11
模型三要素~数据被讨论的很少,希望出一期
FelixHo
FelixHo
2024.9.07
00:31 强化学习看起来美好,实际太低效了,这期嘉宾有点太迷信了
JASting
JASting
2024.9.06
1:07:57 AI领域最大来源数据,可能是R F过程中人指导AI 产生的数据。