贫穷限制 AI 想象？｜硅谷徐老师对话英伟达、DeepMind 大模型专家（下）

67分钟 ·3年前

15421

年初火爆一时的斯坦福 Smallville「虚拟小镇」，现在宣布正式开源。硅谷人正在 all-in（全力投入） AI 智能体，希望能够创造出一个真实存在，又让人惊喜的「西部世界」，甚至让 AI 智能体们走入寻常人家，为人类的生活和工作效率带来巨大提升。

本期「科技早知道」与「OnBoard!」串台，由硅谷徐老师和合作主播 Monica 共同主持，邀请了曾在 OpenAI 工作和实习，从事 AI 智能体、大模型研究领域的两位大牛参与录制。他们分别是英伟达高级 AI 研究科学家 Jim Fan，和谷歌 DeepMind 研究员戴涵俊。

AI 智能体何时能够进入我们的生活，面临哪些挑战？为什么当今的大模型更像是「炼金术」？ Llama 2 为何刚一发布就刺激大量创新出现？在 AI 研究的道路上，如何避免被「贫穷限制了想象」？如果你想通过硅谷 AI 一线精英从业者那里了解未来即将发生的事情，这期节目一定不能错过。

（考虑到节目时间总长，分为上下两期发布。上半期昨天已经发布，你现在听到的是下半期。由于话题专业性和嘉宾表达习惯，在本期节目中你可能会听到更多英文术语，请听友见谅。不明白的可以在小宇宙上留言提问，我们会尽力回答！）

主要话题
01:35 多模态模型是怎样工作的？为什么 Llama 2 对于大模型生态带来巨大推动？
16:28 要能够处理多模态模型的数据，有哪些核心的难点？
19:59 对于 Jim 和涵俊，在 OpenAI 实习和工作的哪些印象最深刻？
21:32 2016 年，GPT/ChatGPT 的「影子」在 OpenAI 内部浮现
27:47 当学术界被「贫穷」限制了想象：OpenAI 开创一种新的模型训练思维模式，让学术界自然语言研究大牛都觉得传统模式要完蛋了
34:32 做大语言模型，最被高估和低估的挑战是什么？
40:18 10-15 年后，纯语言模型的智商可能已经超越人了
46:40 普通人练就 critical thinking 本领，才能更好迎接 AI 时代的到来
60:19 Jim 被贝索斯关注的时候在想什么？
61:40 涵俊、Jim 和徐老师的结尾寄语

本期人物
Jim Fan，英伟达高级 AI 研究科学家，曾在 OpenAI 实习，博士期间就读于斯坦福大学。
戴涵俊，Google DeepMind 研究员，曾在 OpenAI 工作，博士期间就读于乔治亚理工大学。
硅谷徐老师，硅谷连续创业者、人工智能高管、斯坦福商学院客座讲师，「科技早知道」主播｜推特：@H0wie_Xu｜微信公众号：硅谷云 | AI 英文博客：howiexu.substack.com
Monica，播客节目 Onboard! 主理人，美元 VC 投资人，前 AWS 硅谷团队+AI 创业公司打工人，公众号：M小姐研习录 (ID: MissMStudy) 主理人 | 即刻：莫妮卡同学

延伸阅读

关于多模态：给静态大预言模型增加视觉能力的论文

关于openai早先用game来解锁泛化能力的论文

往期节目

AI Agent 智能体真相和未来 | 硅谷徐老师对话英伟达、DeepMind大模型专家（上）

超级独角兽 Databricks 联合创始人：从对决 Snowflake，到人类如何与 AI 共存｜ S7E21 硅谷徐老师

通用人工智能离我们多远，大模型专家访谈｜S7E11 硅谷徐老师 x OnBoard!

AI大神贾扬清离职阿里后首次受访:创业为什么不做大模型｜硅谷徐老师 S7E07

加入我们
声动活泼正在招聘「节目监制」和「声音设计师」，查看详细讯息请点击链接。如果你正准备在相关领域发挥专长、贡献能量，请联系我们。

欢迎加入声动胡同会员计划
成为声动活泼会员，支持我们独立而无畏地持续创作，并让更多人听到这些声音。
支付 ¥365/年成为声动胡同常住民。加入后，你将会在「声动胡同」里体验到专属内容、参与社群活动，和听友们一起「声动活泼」。
在此之前，也欢迎你成为声动胡同闲逛者，免费体验会员内容、感受社群氛围。
了解更多会员计划详情，我们在声动胡同等你。

幕后制作
监制：杜晨、闻晓（实习）、刘灿、东君
后期：迪卡普里鑫、六工（实习）
运营：瑞涵、Babs
设计：饭团

商务合作
声动活泼商务合作咨询

关于声动活泼
用声音碰撞世界。声动活泼致力于为人们提供源源不断的思考养料。
我们还有这些播客：声东击西、What's Next｜科技早知道、声动早咖啡、商业WHY酱、跳进兔子洞、反潮流俱乐部、泡腾 VC、吃喝玩乐了不起
如果你想获取热门节目文字稿，请添加微信公众号 声动活泼
如果想与我们交流，欢迎到即刻找到我们
也期待你给我们写邮件交流，邮箱地址是：ting@sheng.fm
如果你喜欢我们的节目，欢迎打赏支持，或把我们的节目推荐给朋友

Special Guests: Jim Fan, Monica, and 戴涵俊.

展开Show Notes

胡贝侨

2023.8.18

这两天通勤路上听完了上下两期。即使状态不太好，今天听完后也非常激动。感谢四位以及背后的制作者们，毫无疑问的最近最佳播客。

听完后的一些思考碎片：

1. 现在依旧在非常非常早期的阶段。大半年前就在考虑具体应用场景，但更多是自己打消了自己的念头：要么是对比现有方案并未产生实际价值，也没必要增加噱头；要么需要若干系统的联动乃至涉及数据安全问题，因此直到现在也没在业务中用上。不过后来也就释然了，没必要拿着锤子去找钉子，把它放进工具箱能够打开思路就好。

2. 工地上的对话机器人发布后，一开始感到兴奋，因为终于可以合规的使用专有数据来喂养了，期望是有飞一般的进步。但体验了一阵后感到非常悲观：即使 Temperature = 0、Prompt 严格强调、把涉及到的 FAQ 逐条列出扔给小助手作为知识库，问答机器人还是会出现文不对题、发散、瞎说的问题（当然也有知识库本身的问题）。不觉得这样有什么增量价值，最大的好处可能是省去了现有智能客服的编程过程。但一旦出问题，黑盒逻辑都无法排查……

3. 直到把过去写过的若干文档导入生成了自己的小助手后，才意识到它的价值。一方面是降低了创造的门槛，哪怕只是导入也是令人兴奋的过程，在工地提供了方便环境的情况下应该更积极的去尝试发现场景；另一方面是认识到当下的能力和局限，并不是我所幻想那样的，实际应用中有太多问题需要解决，罗马不是一天建成的（同样的感受也出现在体验 ChatGPT Plugins 后的失落感。写到这里，又想起来了高估短期低估长期的话了）。

4. 物理世界太复杂，哪怕是与现实结合的软件系统当下也不可能完整回溯物理世界。现在统计到的数据只是简化世界的九牛一毛，是远远不够的。我也不认可所有的行为都需要准确量化收益。如果完全都靠数据量化了，那理论上这个公司/业务应该一直赢下去才对，甚至完全都不需要人来做决策了。

5. 至少电子游戏很吸引人的一点是对现实世界反馈机制的简化：付出就有回报。

6. 当下能做的依旧是各种层次的 Exposure。假设真是以十年为维度来观察的话，那现在更应该或者为其准备了。如果回到 2013 年，是怎么也想不到今天情况的，但在跟随内心上还是抓住了主线，所以下一个十年还是继续吧。抱怨过 90、00 后所赶上的时代红利不如 70、80 后，虽然会面临更多意想不到的恐惧，但接下来应该会更加激动人心吧。

周晓英

2023.8.18

从教育角度，个人感觉基础知识的学习还是必须的，但这主要是为了训练思维和逻辑推理能力，创新能力等，让个体具备real-time能力，能更好地驾驭AI工具，做出决策，以及Critical Thinking比从前更为重要

榛橡:01:26 赞同 AI效能的上限取决于使用者本身

郭小鹤:我是一名教师很同意你说的

Dicaprixin

2023.8.18

听到Jim从16年坚持看每一篇的openai论文，太厉害了

巴黎的胖子:openai本身论文不多，不像google，一年几千篇paper…

梦梦大狮子

2023.8.18

嘉宾可以全英文讲，中英穿插，听着很费劲，能理解有些词中文不常表达，但是Game也要说英语？嘴里含着热茄子“噜噜噜噜噜噜噜”根本听不清楚。

Charles_Zhang:这是嘉宾的自由啊，英语不好提高英语，中文不行提高中文🌝

SunnyW123:同感，想知道嘉宾为什么不愿意用全英文呢？上节目之前有提前准备吗？不会说的中文词可以先写下来，或者准备稿子照着读。嘉宾可能没有意识到自己的语言表达能力不太适合上中文播客节目，主持人也不好意思提醒他。

HD837585z

2023.8.30

嘉宾的背景都是软件算法为主。对于未来的展望部分，涉及到物理世界的预测都过分乐观了。理解这个问题需要抽象出来看，数字世界发展如此快，主要的原因是数字世界的迭代可以近乎无限的加速。而物理世界没办法。

HD837585z:有人说可以把物理世界的迭代镜像到数字世界中。这里面的逻辑错误在于，仿真的前提是物理世界是已知的，并且物理世界的参数近乎无穷，这与文字，图片视频等高度抽象化和完全不同

cloudtoday:同意。我做的工作是把物理世界映像到数字世界，这里面的难度非常大，不是那么容易突破的。

共6条回复

以太首链

2023.8.20

我觉得这是开播以来最好第一集，信息量满满，很多前沿的观点。谢谢👍👏。我唯一不完全赞同的就是闭源和开源的未来。嘉宾都一致认为闭源模型会继续拉开与开源的优势。我个人不这么认为。我觉得一开始闭源模型因为算力的需求所以比开源强。但长期来说，开源模型会百花齐放，很多领域根本不需要超大模型，而且给足时间算力的优势和成本会降低。 Yann Lacun 这个演讲值得一听 https://m.youtube.com/watch?v=pdPYJKqfiqc

硅谷徐老师:我觉得开源闭源的差距持续下去在这几年内概率比较大。之后不好说。。。

斜杠小z:闭源模型，在综合评分上，肯定会领先开源一段时间。我在想，以后，那有没有可能，比如在to B端，先在行业的垂直的细分领域里，基于特定任务，训练出小而强的开源模型。再用MoE、或者ai agent的架构，串起整个系统呢？靠有限版本的闭源模型，没办法精准的adapt到各行各业。除非，闭源训练出来了，能够大一统的，智力超群的大模型。那就无敌啦！

HD15691y

2023.8.18

嘉宾说的太快了，不清晰….

Davidfan188

2023.8.18

“This is the best time to live”is not for all the human beings，anyway，非常精彩的一期，谢谢分享

卡卡卡西

2023.8.30

我觉得对于未来的准备，三个品质最为重要：1）jim提到的critical thinking和creativity还是最重要的，因为每个人都是unique的自我，这是能够区分人类和AI最大的不同。每个人成长过程和经历完全不一样（训练数据不同），造就了大家独特的性格和价值观，这些训练数据也是AI无法获取的。当然以后大家会不会觉得把AI作为一个有自我意识的生物体，这又是另一个话题了😂 2）学习和拥抱变化的能力，AI主导的时代肯定会带来更加快速的变化，人类要能够主动适应和拥抱技术，并且找到能与AI共存的方法。3）沟通和合作能力，未来的工作和生活可能方方面面都离不开AI，就像今天的手机/平板电脑一样，人应该把AI当作一个新的interaction interface，能和AI高效协作和交流。

RoyZ

2023.8.24

50:11 再次想到了“知行合一”，毕竟AI再厉害只是抓去的是知识，没有配合场景的“行”，真的有那么大的用么？

尖头叉子

2023.8.20

50:54 共产主义了吗？我觉得10年有点科幻了可能我比较悲观吧

eapple:我觉得这是一种学计算机的人的通病，就是太低估真实世界的复杂性。包括他说的做实验那部分，即使多模态很成熟了，我觉得除了那种特别灌水的论文，真正有价值的研究是很难靠大量重复劳动做出来的。而且这些实验的速度根本上受物理世界的限制，不可能像纯数据层面的超快速迭代。

斑马王子

2023.10.06

08:45 文字是二维世界的一维投影

0xE0F

2023.8.29

cool

萨亚子

2023.8.29

节目中提出的问题挺有意思的，“如果你现在是一个大学一年级的学生，面对ai你将会怎么做”。带入想了想，如果是我的话，在那个年龄段和时间节点的认知肯定还达不到要“改变世界“和“寻找下一个风口”的高度，更多的是感受ai给生活带来的变化并为此感到惊喜和兴奋；觉得对于ai的运用是一项值得学习和掌握的实用技能；职业规划上可能会考虑ai的可替代性，选择更加体现人的主观能动性的领域。至于what‘s next，ai下一个应用场景，硬件的人机交互，继续慢慢学习吧，再这个更新迭代的速度下10年可以发生很多事情