EP 37. 对话Deepmind, 英伟达大语言模型专家（下）：多模态大模型解读，亲历OpenAI，AI的挑战与未来

66分钟 ·2年前

5323

·

18

近3小时的硅谷AI重磅嘉宾现场对谈，下集光速奉上！如果你还没有听过上一期，赶紧去补课！

Hello World, who is OnBoard!?

简单介绍一下这次Monica 期待已久的嘉宾组合！两位都在OpenAI工作过的技术大牛，包括Nvidia资深研究员 Jim Fan, 除了对生成式agents 和机器人的具身智能有深度研究外，他的Twitter 连 Jeff bezos 都关注，是AI领域全球范围内的顶级大V。另一位嘉宾戴涵俊，Google Deepmind 的资深研究员，也是 Google 新一代大语言模型的深度参与者。最后，兼任主持和嘉宾的硅谷上市公司华人高管，硅谷徐老师, 每次来 Onboard! 串台都大受好评。

这是三个小时播客的第二部分。上一期的内容，我们深度讨论了最近AI领域最火的话题，Generative Agents, 生成式代理。这一期更是精彩纷呈，包含了AI领域更多核心话题，包括多模态大模型的研究进展，具备具身智能 embodied AI 的机器人如何打造，AI对saas的影响，我们对未来AI的商业和社会畅想等等。真的是非常尽兴的讨论，你也可以拿起笔记本做笔记了。

几位嘉宾都是长期在美国工作生活，夹杂英文在所难免，不接受抱怨。Enjoy!

嘉宾介绍

Jim Fan（推特：@DrJimFan），Nvidia 高级 AI 研究科学家，曾在OpenAI工作，Stanford PhD 李飞飞实验室

戴涵俊（推特：@hanjundai），Google Deepmind 资深研究员，深度参与 Google 大语言模型项目，曾在OpenAI工作，Georgia Tech PhD

硅谷徐老师（推特：@h0wie_xu），硅谷连续创业者、人工智能高管、斯坦福商学院客座讲师，「科技早知道」主播｜微信公众号：硅谷云｜ AI博客：howiexu.substack.com

主持：Monica（推特：@Monica_XieY）：美元VC投资人，前 AWS 硅谷团队+AI创业公司打工人，公众号：M小姐研习录 (ID: MissMStudy) 主理人 | 即刻：莫妮卡同学

我们都聊了什么

01:55 为什么 Jim 觉得 Llama 2 作为语言模型，对于多模态模型和机器人有重大推动

05:24 Hanjun 解读多模态大模型的两种实现方式

07:47 多模态大模型只是解锁了新的场景，还是能更大提升大模型本身的智能？如何理解大模型的智能？

12:34 为什么说机器人的多模态问题更有挑战？

16:35 处理多模态训练数据有哪些难点？

18:12 大模型训练还需要哪些工具？Infra/tooling 有哪些机会？

19:51 亲历OpenAI 的经历回顾和感受：2016-2020，OpenAI 都发生了什么

25:11 OpenAI 近年的发展，哪个时刻震撼了你？

34:20 为什么说 Evaluation 是大语言模型最被低估的挑战之一？

39:54 未来1年和未来10年，你最期待人工智能领域带来什么？

46:17 我们自己和下一代应该如何为未来做准备？

59:33 有趣的 closing 和未来展望：被 Jeff Bezos 关注是什么感觉？！

我们提到的内容

Llama 2: Meta 开源的大语言模型

Jim Fan 对于Llama 2 的解读

OpenAI 赢得DOTA 游戏比赛

LSTM (Long Short-term Memory)

Jim Fan 对大猩猩玩Minecraft 的解读

DALL-E 2: DALL·E 2 is an AI system that can create realistic images and art from a description in natural language (by OpenAI)

CLIP: Connecting text and image

ImageNET: an image dataset organized according to the WordNet hierarchy.

AlexNET: ImageNet Classification with Deep Convolutional Neural Networks

重点词汇

RLHF (Reinforcement Learning with Human Feedback): 人类反馈的强化学习 - 一种AI模型通过人类反馈与传统的强化学习结合来学习的方法。

Fine tuning: 微调 - 在特定的数据集上进一步训练预训练的机器学习模型，使其适应特定任务的过程。

Hallucination: 幻觉 - 在AI中，指的是模型生成不在输入中的信息，可能导致输出不准确。

Multi-modal model: 多模态模型 - 能够理解和处理多种类型数据（如文本、图像和声音）的模型。

Auto regressive model: 自回归模型 - 一种统计模型，它使用一个变量的过去值来预测其未来值。

Diffusion model: 扩散模型 - 用于描述信息、疾病或创新等东西如何在群体中传播的模型。

Tokenize: 分词 - 将文本分解成更小的部分（如单词或子词）的过程，通常在文本处理或自然语言处理中使用。

Intuitive physics: 直观物理 - 人类对物理现象的直观理解，例如物体如何移动或互相碰撞。

Embodied AI: 具体化的人工智能 - 通过物理或虚拟的身体与环境互动的AI系统，例如机器人或虚拟代理。

CVPR (Computer Vision and Pattern Recognition): 计算机视觉和模式识别 - 专门研究计算机如何“看”并从图像或视频中理解内容的领域。

Walkaround: 绕行 - 解决问题或障碍的方法

欢迎关注M小姐的微信公众号，了解更多中美软件、AI与创业投资的干货内容！

M小姐研习录 (ID: MissMStudy)

大家的点赞、评论、转发是对我们最好的鼓励！

如果你能在小宇宙上点个赞，Apple Podcasts 上给个五星好评，就能让更多的朋友看到我们努力制作的内容，打赏请我们喝杯咖啡，就给你比心！

有任何心得和建议，也欢迎在评论区跟我们互动~

展开Show Notes

莫妮卡同学

2023.8.18

置顶

来自Hanjun的专业补充！（嘉宾太认真了！）

如果可能会有帮助的话，以下是一些相关的artifacts：
- 关于多模态：https://arxiv.org/abs/2204.14198 是给frozen llm加visual能力，至于原生multi-modal是什么这个可以不提 😅
- 关于openai早先用game来解锁泛化能力：https://openai.com/research/procgen-benchmark 是他们后来build的benchmark，当然这个link主要是考古价值了。

2023.8.22

59:41 Howie 老师最后真的正能量了哈哈哈

2024.4.05

14:38 “大脑70%的皮层是在处理视觉信息，但Vision很多信息冗余，信息密度和text无法比”—-所以其实人脑主要资源在做感知，但大模型现在强大可能是因为他的起点就是加工后的信息了。

银河系老王

2023.12.12

太精彩了！凭一个节目拉高了小宇宙的科技含量啊

2023.8.18

简介中Monica的Twitter好像写错了，应该是@Monica_XieY

莫妮卡同学

:改了！谢谢🙏

2024.4.05

10:02 莫拉维克悖论（英语：Moravec's paradox）是由人工智能和机器人学者所发现的一个和常识相佐的现象。“人觉得简单的东西，算法觉得很难（视觉）；人觉得很难的东西，算法觉得很简单”。

2023.8.29

几位老师的讨论让我深受启发，尤其是关于使用open world data 和 scale up 的观点让我纠结了很久传统学术界的 benchmarking 和小规模训练是否还有意义，特别是结合X上最近"gpu poor"引发的讨论，虽然没有特别确定的结论，但我目前偏向于在AGI出现之前，总会有一些细分任务上数据集不够大，或者使用场景中算力受限，所以benchmarking也还是有意义的。另外关于AGI，我有一些疑惑，一方面是为什么几位老师对AGI在十几年内实现如此乐观，一方面是为什么对AGI实现后的社会变化如此乐观。我个人还不确定AI是否真的能具有复杂推理能力，并且认为实现AGI后国际格局会更加分裂，对立，而整个社会的财富也会大部分掌握在foundation model公司以及它们的上下游的拥有者手里，相比成为乌托邦，似乎黑客帝国更有即视感一点，如果配合着VR，元宇宙，脑机接口，简直绝了。

2023.8.19

喜马拉雅追过来。慢慢听第二遍😁

2024.7.11

收获很多，感谢

2024.4.05

13:23 机器人成为iPhone一样的存在，是下一个工业革命。

2024.4.05

08:54 GPT通过一维投影理解高纬度世界，问题：1️⃣效率低；2️⃣文本可能是智能最重要的一部分（文本理解是人和动物最重要的区别，不是视觉）

2024.2.06

非常好奇，作为下一个 GPT 的通用机器人，还需要哪些突破点？

2023.9.07

非常精彩的两期听了两遍信息量超大😄

没没没开玩笑的

2023.9.03

28:16 mark

2023.8.22

46:28 AI Agent 好像有点科幻片的感觉了

2023.8.18

35:26 robotics跑路做llm非常认同

2023.8.18

cool

打开小宇宙查看更多精彩评论