E145 | 对话Meta田渊栋:被Transformer改变的世界与人类AGI的野心

E145 | 对话Meta田渊栋:被Transformer改变的世界与人类AGI的野心

54分钟 ·
播放数18705
·
评论数48

2017年,谷歌一篇划时代的论文《Attention is all you need》掀开这一轮人工智能的开幕式,这篇论文就是大名鼎鼎的Transformer。7年过去了,我们看到在这篇论文的基础上加入算力、算法开启了AI时代的第三次科技浪潮。

今天我们的嘉宾是来自Meta Fair的研究员田渊栋博士,他最近也发表了两片论文都在都与端侧小模型相关,一片论文是《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10 亿以下参数小模型,主打在移动设备上运行 LLM;另一片论文是《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》,由于离应用更近在解决更实际的问题,他的论文被业界很多人问到,而过去五年,他所有的研究都在回答一个问题:神经网络是如何工作的?

今天我们就一起来解读田渊栋最近的两篇论文,也一起聊聊最近大火的Sora、Transformer与AGI。


【老罗直播预告】
北京时间3月31号晚上七点,罗永浩会在直播间卖云产品。之前老罗也带火过很多概念,这次我们来看一看,老罗能不能引领一场企业级IT认知的运动,把云计算这个概念推向大众。他这次的选品涵盖阿里云众多的热门产品,价格也给出了史无前例的优惠,大家感兴趣去淘宝app搜索「罗永浩」,让我们一起围观连续创业者罗永浩卖云产品,以及他如何解决创业者的核心痛点的,直播链接:m.tb.cn


【主播】
泓君,硅谷101创始人,播客主理人
【嘉宾】
田渊栋,Meta人工智能研究院(FAIR)研究员及高级经理

田渊栋博士,Meta AI人工智能研究院(FAIR)研究员及高级经理,2018年围棋开源项目(ELF OpenGo)研究及工程负责人和第一作者。曾获2021年国际机器学习大会(ICML)杰出论文奖提名(Outstanding Paper Honorable Mentions)及2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions)。研究方向为深度强化学习,表示学习和优化,历任机器学习国际会议ICML,NeurIPS,AAAI, AIStats领域主席。2013-2014年在Google无人驾驶团队任软件工程师。

【你将听到】
00:05 3月31号晚七点罗永浩直播间卖云
01:34 正片
【“斜杠”AI研究专家】
02:55 从自动驾驶、围棋开源项目到神经网络研究
05:52 写科幻小说:不靠谱的想法放进小说,靠谱的想法用来做科研
07:24 理解神经网络如何工作or 研究大模型,2019年为何拒绝Ilya Sutskever加入OpenAI的邀请
08:44 最新两篇论文的艰难诞生:曾被两次拒稿,三四年后才看到结果
【GaLore和MobileLLM】
11:04 GaLore的主要特点:实现在英伟达RTX 4090上进行模型的从头训练
12:56 算法上改进让4090重获新生,省内存的同时获得高性能
16:56 MobileLLM:降低神经网络参数仍然保持好的效果
【实现AGI的路径】
17:40 Scaling Law带来的增长会越来越小,我们并没有完全理解为什么Transfomer的效果更好
19:17 完全无人驾驶难点:人工干预的频率越低,有效训练数据就越少
23:41 Transformer很难做游戏式的推理:通过理解神经网络的工作原理来改进现有算法
【深度理解Transformer】
24:52 谷歌内部发现算力价格比通信便宜,所以想到要设计一个模型让算力获得更大优势
26:21 Transfomer vs CNN:没有预设立场,并行效果更好
26:44 Transformer的缺点:需要大量算力、速度较慢、延迟高
28:01 强化学习的根本性问题:Exploration(探索)和Exploitation(开采)
【Sora、合成数据与Anthropic】
30:03 Sora的最让人惊艳的地方是所生成的内容一致性非常好,在技术上有根本的创新
33:07 世界模型并不“高大上”,对未来有看法和预测都可以成为称为“世界模型”
40:46 用合成数据训练大模型是趋势,其与真实数据之间的边界会越来越模糊
43:00 合成数据相当于用算力来换数据,但缺乏人类参与的数据会导致学习瓶颈
44:30 Anthropic的长文理解和分析能力远强过GPT-4,但推理能力难以分高下
46:30 大模型缺乏竞争的话,也会出现“偷懒”的问题
48:06 一家独大 or 威慑平衡,Meta开源打破的行业格局
48:18 大模型侵蚀Google的核心业务,训练和推理很难发论文
50:20 从玄幻小说到科幻小说:记录人与人之间的关系和思维的火花


【相关信息拓展】
ELF OpenGo:由Facebook AI Research团队(FAIR)在2018年开源发布的AI围棋项目。其特点是不使用人类棋谱与累积的围棋知识,仅实做围棋规则,使用单一人工神经网络从自我对弈中学习。《ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero》
MobileLLM论文:《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》
GaLore论文:《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》
田渊栋之前自动驾驶的技术分析帖子
玄幻&科幻作品集


【后期】
AMEI
【BGM】
Interruption - Craft Case
Stillness Within - Roots and Recognition


【在这里找到我们】
公众号:硅谷101
收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客
海外用户:Apple Podcast|Spotify|TuneIn|Youtube|Amazon Music
联系我们:podcast@sv101.net

展开Show Notes
J_Lock
J_Lock
2024.3.29
声动早咖啡的结尾和硅谷101连上了😂
叫我什么ne:我就是来找这条评论的哈哈哈
Yuk1iii:无意进来发现对上了
HD654316s
HD654316s
2024.3.30
wow 经常在各种顶会上看到田 还看过他写的小说😂
荷埃迪
荷埃迪
2024.4.02
田博士真的好强!好奇主播也是学习过计算机或者深度学习吗?提的问题都问到点子上,而且还能理解田博士的回答。
泓君Jane
:
并不是,文科生😂
千_9iSl:问题问的真好
去知乎看田博士讲自动驾驶的那篇文章,真的太好了!!!
泓君Jane
:
对,那篇超好!
sweetseyo:求问标题
4条回复
周奕晨
周奕晨
2024.4.03
08:41 有谁能写一下这两篇理解神经网络的文章叫啥吗?听不太清楚
泓君Jane
:
shownotes里有全名和链接
01:56 美国云算力占比60%,中国占比才28%啊。。。有出处吗?
提篮桥夜未眠:没有GFW差距会更大……
却东
却东
2024.3.29
卧槽田老师。看了不少田老师关于表征学习的文章😂
郑滨生
郑滨生
2024.3.31
我在北京,传统媒体工作,非常感谢有这样的一个学习窗口
嗨泓君。能邀请BBOC曾博过来聊聊吗。我一直觉得他是硅谷奇才。而且对科技有很多有趣有深度的见解。
泓君Jane
:
谢谢提供嘉宾线索,我来关注下
Lilia_
Lilia_
2024.3.29
听了一会儿去搜嘉宾 好强...读了一会儿《破晓之钟》,此刻一枚研究牲内心颤抖😂
28:09 好棒!第一性原理
xcccc
xcccc
2024.4.16
06:04 好酷
雅童
雅童
2024.4.15
主播很棒!
31:40 这个感觉干货满满 ,赶紧去读论文去了 再不读论文播客都跟不上了😂
48:40 现在确实google用的少了,有问题先丢给gpt。
小和平鸽
小和平鸽
2024.4.06
48:12 开源的商业模式就是上了船你就跑不了。因为换船的成本是极高的。
小和平鸽
小和平鸽
2024.4.06
20:29 这个例子才是非常不好的呢。这个只是在传播上有一点优势,因为比较简单,但是比较不正确。这明明是偷换了概念。前面说的是数据继续Scale的边际收益递减,后面换成了不发生事故收不到事故数据。其实事故场景是可以模拟的。
imProto
imProto
2024.4.06

袁泽世
袁泽世
2024.4.03
48:10 开源商业模式
榛橡
榛橡
2024.3.31
👍👍👍