54. 口述全球大模型这一年：人类千亿科学豪赌与参差的中美景观

张小珺Jùn｜商业访谈录

93分钟 ·3年前

50687

118

这是《商业访谈录》的跨年特辑。我邀请拾象创始人李广密口述全球大模型这一年——当顶级商业领袖、顶尖科学家这些人类最聪明的大脑，手握数以千万计的资本狂卷一年，2023年全球大模型卷出了什么？

人类这场以大模型为名的豪赌实验，能否将世界带到新的摩尔时代？简单说，模型产业的发展规律会不会极类似半导体行业：未来，模型能力每1-2年提升一代，模型训练成本每18个月是原来的1/4、推理成本每18个月是原来的1/10。

广密今年一整年全身心泡在大模型，一大半时间肉身在硅谷，参与相关投资。这期信息量非常密集。我会在show notes里尽可能详细地标注播客中的专业词汇。

02:03 过去一年，大模型的核心secret藏在这三家公司：OpenAI、Anthropic、Google

04:22 回顾全球大模型这一年，我脑海里闪现的关键产品与瞬间

07:56 从OpenAI分裂出去的Anthropic，它的前世今生（OpenAI正以1000亿美元融资，Anthropic正以200亿-250亿美元融资）

10:26 硅谷大模型的融资是巨头在定价和主导了，硅谷VC几乎全体错过

12:13 卷了这一年，全球大模型到底卷出了什么？

14:03 如果复刻GPT-4是进入决赛圈，目前的3名入围选手和3名高潜黑马

15:20 提升模型capability的北极星指标与关键变量？

16:51 这次是极少数科学家推动的“登月时刻”，天才科学家的聚集效应与分布图

23:05 模型竞赛很残酷，我们对于终局的推演、猜想

23:53 中国模型公司现状：技术辨识度/资源集中度/领军人物

25:53 人类烧尽千亿美金做一场AI实验，赌的是什么？AI能推动未来15年全球GDP翻倍？

26:26 硅谷巨头和它们分裂的大模型阵营：微软和它支持的OpenAI/Google、Amazon和它们支持的Anthropic/Google自成一派/Tesla和它支持的X.AI/Apple——明年Apple支持谁值得关注

30:29 2024年会决定大模型格局，窗⼝可能就在未来12个⽉

33:39 大模型公司一定要追求GPT-4吗？不做怎么样？晚做到又怎么样？（壁垒）

37:35 大模型有可能开启了“新摩尔时代”：明线是智能capability提升，隐线是成本下降

46:16 硅谷模型公司更像research lab，八成以上可能性会被收购

49:15 学习硅谷经验，“国内公司也可以提前抱大腿”

50:34 大模型时代与互联网时代的不同特征（还没看到网络效应和数据飞轮）

54:53 回头看，今年初我们低估了GPT-4的难度，高估了应用爆发的速度

55:14 开源和闭源/大模型和小模型/通用模型和垂直模型的格局问题

57:47 多模态和Agent的下一步？

01:07:14 硅谷VC最大的竞争压力来自微软和OpenAI，GitHub前CEO Nat Friedman在这波AI里标的质量高，position比很多传统硅谷VC要好

01:11:33 对2024年的预测和猜想：应用大爆发？

01:20:04 美国“模型即应用”，国内产品和场景定义可能做得更好

01:26:00 说三条今年行业的最大噪音

01:27:05 OpenAI政变进展：Sam Altaman像政客，Ilya Sutskever不怎么去公司了

01:29:09 接下来，我最想知道的4个问题

提到的公司/产品/人：

全球前三的模型公司：OpenAI (ChatGPT)、Anthropic (Claude-2)、Google (Gemini)(Gemini Ultra)

另外可能的黑马：马斯克支持的X.AI、Transformer核心贡献者Noam Shazeer创办的Character.AI、字节

做开源模型的公司：Meta (Llama)、Mistral (一家欧洲做开源大模型的公司)

多模态：Midjourney (图像生成)、Runway/Pika (视频生成)

DAU稳定在200w以上的产品：ChatGPT、Character.AI

企业级业务探索大模型的公司：微软copilot、Adobe

贡献很大的科学家：Noam Shazeer (Character.AI CEO)、Dario Amodei (Anthropic CEO)、Ilya Sutskever (OpenAI首席科学家)

在AI投资领域最欣赏的一个人：Nat Friedman (GitHub的联合创始人之一)

专业或英文词汇：

ARR："Annual Recurring Revenue"，即年度经常性收入，是一种衡量公司在一年内通过订阅、合同或其他定期收费服务获得的收入的指标。它特别适用于那些提供订阅型服务的公司，如软件即服务（SaaS）公司。

RLHF：基于人类反馈的强化学习，Reinforcement Learning from Human Feedback。

Transformer：是一种用于自然语言处理（NLP）和其他序列到序列（seq2seq）任务的深度学习模型架构。它由Google在2017年的一篇论文中首次提出，并在提出后的几年中成为了许多NLP任务中的标准模型架构。Transformer架构抛弃了传统的循环神经网络（RNN）和长短时记忆网络（LSTM），而采用了自注意力机制（Self-Attention）来实现序列建模。

inference cost：推理成本

pre-train：预训练

scaling law：在大模型领域，"scaling law"（规模定律）是指模型规模的增加与性能、能力或其他相关指标之间的关系。当在深度学习中讨论模型规模时，通常指的是模型参数的数量、训练数据的大小，或者计算资源的使用情况。规模定律通常涉及到增加模型规模会如何影响模型的性能和训练效果。

diffusion model：扩散模型

延展阅读：本集文字精华版 & 拾象完整版

【更多信息】

本集首发于腾讯新闻，点击前往音频版

联络我们：微博@张小珺-Benita，小红书@张小珺jùn

更多信息欢迎关注公众号：张小珺

展开Show Notes

陈东来

2024.1.01

很真诚的嘉宾，这期确实很棒，给出的很多问题答案都是同一个，因为已经是他思考和探索出来的，没有多少噪音。而从transf的智能上限，到竞争格局，产品形态其实都不确定，或者不知道，因为怎么做可能都可以。这期已经给到了很多确定的范围和路线，拿着这个roadmap，在超级科学家占主角的上半场，我们个人可以等一等，可以提前靠拢大腿，提前靠近gpu、云or终端，也可以关注现有的模型，以开发者的形式参加进去。👏👏 大模型赶在互联网造富的尾声，各位打工人，拥抱曙光点或者转身离开互联网，祝大家24年一定要找到自己的主线啊！

陶責

2023.12.31

这期问答都在点子上

陶責:已经听了第三遍了

张小珺

:💙💙

共3条回复

城_XnNh

2024.1.01

不愧是去过硅谷的投资人比国内现在很多所谓的投资人搁这一直各种讲故事聊理想讲一些实际上不make sense的话要真诚的太多很多观点都是真实的一线从业人员可以落地的建议

good_luck

2023.12.31

31:07 每次听小珺的播客收获都很大没有废话提问专业

PlayWithAI

2024.1.01

神仙打架，国内虽然百模大战不亦乐乎，但听下来只是自嗨，好惨！

sanbai_

2024.1.02

这个投资人群体不管说什么都会展现120%的自信，即使他们的视角可能有明显的偏向。大伙也可以多看看其他人，尤其是在这个领域做出过卓越贡献的人，看看开源社区的人怎么说。

阿互

2024.1.01

12:51 大模型像点外卖，一切都是做好的。搜索像是买菜，得到的是材料，需要自己做。

咫尺流年

2024.1.09

56:09 单从模型能力来说，开源是很难追上闭源的。AI模型开源闭源跟传统的软件开源不一样，模型不可编码不可解释，GPU要在单一一个机群联起来，训练才更高效。但开源模型在成本端可能更有优势，未来企业和用户的需求很可能是分层的，大部分的需求可能不需要最尖端的能力就可以实现。因此开源模型的使命不是作最聪明的模型，而是承接最先进模型溢出的需求做民主化。这段太好了，我改了一下语序方便自己的阅读习惯哈哈哈希望嘉宾不要介意

小龙_fQXL

2024.1.02

花了一天时间，认真听了一遍，又看了一遍文字版。嘉宾作为走在技术最前沿的关注者与投资者还是站在最先端参与者角度来进行的深度思考，技术理解度都没的说。
最深度思考的人，其实越没有明确答案。
因为太洞悉宇宙，所以觉得生活越虚无。
作为投资人要刨根问底，但想参与这次AI浪潮的人还是多方面看看。毕竟底层大模型能参与的人太少，大部分还是要研究到底生成式AI能在业务层面渗透多深。手低眼高的试一试，虽然有可能被更新的下一代一巴掌拍死。所以我觉得日本市场的方式还真挺可行，企业小成本投入，研究Know how，培养下一代AI native员工，更新换代都能随时跟得上。

kamu

2024.1.02

今年有幸听到的第一个播客，关于ai大模型，探讨几个问题：

1、ai大模型基础研究和具体应用

基础科学研究和应用技术这两个的关系在科学界也有争论，主流观点认为只有先做好基础科学研究才会有具体应用。但是科技发展过程中有很多案例，比如飞机，科学家到现在为止也没有真正搞清楚飞机为什么能飞，自行车也是。ai大模型同样如此，可能不一定研究得很透彻了才会有具体应用的大爆发。

2、通用模型和垂直模型

嘉宾的观点认为垂直模型可能会是建立在通用模型上的具体应用，那么通用模型更像是一个操作系统，垂直模型就像一个个app？我挺认同这种观点的，一个模型没有对基础信息和数据的理解，也很难理解专业领域的信息和数据吧。比如我们在开发的化妆品鉴别小工具，如果没有对基础文本和信息的理解能力，调用专业数据库信息去匹配和比对就会非常不准确。

3、大趋势和具体发展路径

大趋势是可以预测的，但是大趋势具体的演进路径估计很难有人能预测。ai将会是大势所趋，但是这个趋势具体如何演进，估计没人会知道。汽车是欧美人发明的，新能源汽车却爆发在中国。以我从事的电商行业来说，有几年垂直电商基本都死光了，很多人以为阿里京东几大电商巨头大势已定，谁知道却冒出来抖音快手拼多多。当以为是垂直电商机会的时候，却不是；当以为没有机会的时候，新的机会却出现了。其实背后支撑的逻辑是：零售行业细分和垂直化的大趋势。

Elsie_9

2024.1.02

质量好高，点赞点赞。严重同意嘉宾的观点，视频的内容密度不是很高，因为语言生成已经是有一次抽象或者说总结的过程，所以视频加入训练、或者说多模态消耗会很高很高

Laylabb

2024.1.02

麻蛋，听不懂在说啥。

陈不撕

2024.1.02

听完了，这期的问题又密集又专业，不扯远的，很聚焦。虽然站在小创业者的角度，有些机会判断不认同，但不管大小，行业遇到的问题会趋于一致……下一个爆发的场景在哪里，和AI应用怎么才能有网络效应。

却东

2024.1.02

真敢说啊 “一共也就两百多个人”“yannlecun与大模型无关” ，煮酒论英雄是吧

sanbai_:“杨立昆不懂transformer，非英熊也”

所叶:真敢说…可能看了几节深度学习的tutorial就满嘴跑火车

奔跑的大鹅

2024.1.02

周鸿祎提到的几个观点，和这期节目的观点，有一些差异。大家的观点不一致，做一个参考。
第一，大模型不会垄断，不像操作系统全世界就那么几套，它的发展路径更像PC，未来会无处不在；
第二，明年大模型一方面追求“大”，另一方面也会追求“小”。这是已经看到的趋势，小规模的大模型将很快搭载在手机和各种物联网设备上，而不仅工作在云端。而且明年汽车上可能会部署出来更多的大模型；
第三，多模态将成为国产大模型的标配，现在不论是GPT-4V还是Gemini都能看懂图片、视频，听懂声音，目前国产大模型还是以文字为主，明年也将向多模态方向发力；
第四，国内会出现很多垂直大模型，走进百行千业，向产业化方向发展。2024年最重要的是证明大模型能真正地解决问题。另外，他认为明年AIGC（生成式 AI）方面，大模型的文生图、文生视频能力会得到突破性增长，至于明年会产生什么样的C端杀手级应用，还有待观望。

xiaopingguo:国内和硅谷的观点差异还是非常大的

feelsgood

2024.1.02

连投资人视角的，不一定都对，不过确实能开阔视野

gpCigqFeC52

2024.1.02

大佬牛逼

普六茹扎

2024.1.03

这期的质量相当高了，但也有些小问题，比如说调节精度到小数点后32位还是16位，应该是指用32位还是16位的二进制来表示浮点数，而不是十进制的几位小数

HD198196s

2024.1.02

今年听到的拥有最真实现状➕最具体未来的ai大模型科普！喜欢小珺姐的每个介绍一个行业的播客，但这个是今年（啊是2023年）最喜欢的！已分享到胖圈～

风起微澜

2024.1.02

信息密度高，简单摘录有印象的观点。
1.当前大模型技术路径，怼数据和算力还是最有效
2.路径明确，但过程中却需要很多研究试错和微调，需要有很强的研究人才密度和大资金量。这就是硅谷大公司的优势，也是为什么国内短期内很难追上openai的步伐，难以短期做出GPT4.0
3.还没看到super app的机会。X.AI—自动驾驶，苹果—端侧，有比较强的规模化落地应用的机会。

打开小宇宙查看更多精彩评论