144: 从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来晚点聊 LateTalk

144: 从「大而强」到「小而强」,密度法则、RL 的 Scaling Law 和智能的分布式未来

102分钟 ·
播放数9159
·
评论数52

本期嘉宾,是清华大学的刘知远和肖朝军,他们刚在 11 月的《自然》杂志《机器学习》子刊上发表了封面文章:Densing Law of LLMS,大模型的密度法则。所谓“密度”,就是用更少的算力和数据获得相当乃至更多的智能。

刘知远是清华计算机系副教授和面壁智能首席科学家,肖朝军现在在清华做博士后,也是面壁 MiniCPM 系列的文本模型负责人。


图注:此图描述了 2023 年 4 月之后,主要开源模型的能力密度的变化。能力密度是衡量单位参数/算力下,模型能力的指标。目前版本的密度法则总结了预训练大语言模型的密度变化,o1、R1 等后训练强化学习对能力密度的提升尚未体现在指标里。

我们讨论了密度法则研究的源起,也展开聊了业界提升模型能力密度的具体做法:如何从架构、数据治理、算法和软硬协同优化 4 个环节着手提升模型能力密度。

而再往后,更大的密度提升,可能需要一些全新方法,因为强化学习的 Scaling Law 还未清晰展现,未来可能有两种技术路线:一是继续扩大强化学习的规模,观察其中是否涌现更多泛化能力;二是寻找新的学习方式。

在刘知远的设想中,未来,更高密度的模型,会支持每个人在端侧的专属模型,智能会分布式存在:也许手机都不是最终的入口,而是一个可以随身携带的个人计算设备:“就像一个可以随身携带的 NAS”。


图注:达到 GPT-4V 水平的模型参数规模随时间增长迅速缩减,而端侧算力快速增强,当芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线交汇,端侧设备将能运行以往只能在云端运行的大模型。

性能一直是人们更关注的模型演进的脉络,而这期我们会讨论,在另一条主线“效率”上,我们可以做出什么努力。

本期嘉宾:
刘知远,清华大学计算机系副教授、面壁智能首席科学家
肖朝军,清华大学计算机系博士后、面壁智能 MiniCPM 系列文本模型负责人

本期主播:程曼祺,《晚点 LatePost》科技报道负责人

时间线跳转:
-大模型时代的“摩尔定律”
02:09 Gemini 3 和 Nano Banana Pro 的启发:统一的“自回归式视觉+语言生成”即将突破
04:31 大模型演进的两条主线:能力和效率
10:23 和摩尔定律一样,“密度法则”是行业现实,也是“自我实现”
18:43 每 3.5 个月,大模型的能力密度翻一番
21:01 2023 年下半年的抉择:花几千万再训一个更大的模型,然后呢?

-提升密度的四个环节
27:08 架构、数据、算法、软硬协同优化
30:41 (1) 架构:MoE (混合专家系统) + 注意力机制改进
34:28 (2) 数据治理:Ultra-FinWeb 用 1/10 数据量达到更好效果
40:24 (3) 算法:RL 还没有 Scaling Law,接下来可能有两条路
49:21 (4) 软硬协同优化
52:02 InfLLM-V2 的核心更新:把稀疏注意力做到预训练阶段
55:18 注意力改进趋势:长文本不仅是长输入,更多关注“长输出”

-大模型上车、上手机
58:53 5 年内,手机可跑 GPT-4~5 级别的模型
01:06:23 大模型在汽车上已开始量产落地
01:10:34 “别人得到的,不一定是你失去的”,AGI 既会发生在云端,也会发生在终端
01:15:07 未来入口也许不是手机,而是属于每个人的移动计算终端

-AGI 下一步:自主学习 + 分布式的智能
01:17:40 自主学习→AI 协作网络→真正的创新
01:21:04 2023 年初,有巨头说世界上只会拥有几个大模型,就像 1943 年,IBM 董事长曾说全球不需要超过 5 台主机
01:24:46 AI 助手帮成为更好的工作者
01:28:53 不担心生产过剩,未知领域还太多
01:31:39 机器制造机器,AI 制造 AI

01:40:01 ☆连点成线

相关链接:

晚点聊 143 期:《再聊 Attention:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进》

晚点聊 103 期:《用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进》

剪辑制作:Nick

附录,本期提到的一些论文(更多具体名词解释,见本期文字版):
Densing law of LLMss(《大模型的密度法则》)

Efficient GPT-4V level multimodal large language model for deployment on edge devices(本期中提到的,具身行业喜欢引用的图的原始论文。)

InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation(InfLLM 稀疏注意力改进的第二版。)

本期主播:
小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

展开Show Notes
曼祺_MatchQ
曼祺_MatchQ
2025.12.12
置顶
https://mp.weixin.qq.com/s/aqoBWmw6Em3dCsZrH_FEUA
图文版链接
曼祺_MatchQ
曼祺_MatchQ
2025.12.12
刘知远团队刚在 11 月的《自然》杂志《机器学习》子刊上发表封面文章:Densing Law of LLMS,大模型的密度法则——如何用更少的算力和数据获得相当乃至更多的智能。
我们聊了提升模型能力密度的具体方法,架构、数据、算法、软硬协同环节各自可以做什么。
就像摩尔定律一样,密度法则是一种自我实现,它指向一个智能广泛分布在各种终端的未来。
两个我自己印象深刻的数字:
2023年,中国手机总算力是数据中心的12倍。
1943年,IBM 董事长说全球只需要5台主机就能满足全部计算需求。
xstarcity:刚听了Transformer架构的联合发明人、OpenAI首席研究科学家Łukasz Kaiser深度访谈,38:13 作者解释了 Scaling law 看起来撞墙的真正原因——现在的模型距离人脑百万亿突触还差了几个数量级…科学家是希望能够实现这样规模的模型的,但是当前的经济条件不允许。因为 Chatgpt已经有10亿的用户,导致经济法则指向的方向是训练更小的模型来满足这些用户的需求:训练了更大的模型,成本也更大,没法运营 这样看起来实现agi的路径中,未必是模型规模到头了,可能是当前单位算力价格还不足以支撑,随着时间拉长,苦涩的教训很可能还会重演😄
一直有在做端侧模型相关的落地开发,很明显的感受到过去一年来这些小同样参数量的模型在能力方面的进步,也期待未来能看到更多端侧小模型的应用落地!
说端侧模型是大模型‘赠品’的,大概率没有做过端侧部署。在服务器上跑通和在手机、车机芯片跑顺,中间隔着巨大的工程鸿沟。 算力适配、功耗控制、内存优化,每一个环节都需要极深的 Know-how 沉淀。面壁团队在这个方向探索沉淀的时间很久很前沿,在做的不是简单的‘把模型做小’,而是在螺蛳壳里做道场,这是实打实的硬科技,不是靠蒸馏一下就能解决的。 标志着中国模型厂商的一个分水岭:从跟随者到前沿理论创建则;从卷参数、卷榜单,转向卷方法论、卷落地逻辑。 只有当本土团队开始输出像 Densing Law 这样成体系的指导思想时,我们才算真正拥有了独立思考的能力。
焱晦
焱晦
2025.12.15
整体信息密度很高,观点并不激进,但胜在系统性。密度法则是否能成为像规模法则那样的“硬规律”还有待验证,不过至少给了一个可讨论、可量化的方向,而不是停留在情绪化的“反规模叙事”。
杜宇恒
杜宇恒
2025.12.12
硬核
YwX_UATx
YwX_UATx
2025.12.12
16:41 哈哈哈哈哈哈哈哈哈这个类比好形象
九歌_mEaY
九歌_mEaY
2025.12.15
1:30:47 这期对“密度法则”的阐述比较扎实,没有停留在概念营销,而是把它放回到算力、架构、数据和训练范式的长期演进里来看,逻辑是自洽的。对 RL 尚未形成 Scaling Law 的判断也比较克制,没有过度拔高确定性,整体更像是在给行业补一条“暗线”,而不是制造新口号。
白禾_M8R8
白禾_M8R8
2025.12.15
相比常见只谈“模型有多强”的讨论,这次把效率、端侧和分布式智能放到同一个框架下,其实更贴近真实商业约束。不是所有问题都给出了答案,但哪些地方还没有成熟、哪些只是趋势判断,说得比较清楚,这点难得。
不一定全对,但比单纯喊scaling law有用多了
食企鹅斋
食企鹅斋
2025.12.15
不是一篇让人“热血沸腾”的内容,但看完会更清楚哪些问题是真难、哪些共识其实并不牢靠。对 RL、端侧智能和未来形态的判断偏谨慎,反而让讨论显得更可信。
步归_Cdh9
步归_Cdh9
2025.12.15
这期最有价值的不是那个“3.5 个月翻倍”的数字,而是把模型架构、数据治理、RL 放在同一套效率框架里讨论,至少逻辑是自洽的。
如也_E3wR
如也_E3wR
2025.12.15
整体观点不激进,甚至有点保守,但正因为如此,对端侧、分布式智能和 RL 的判断反而更可信。它不是在给答案,而是在把真正困难的问题摆到台面上。
禔愔
禔愔
2025.12.15
比起“我们已经很强了”,这期更像是在说“哪些地方其实还不行”。不煽情,但信息密度确实高。
emm 可能是个人层次不够,肖朝军做一些串联式阐述的时候是比较受用的
阿丹_hgBS
阿丹_hgBS
2025.12.12
面壁确实越来越厉害了,端侧智能即将爆发
端侧很难有独立的机会。有最好的大模型,用现有的蒸馏算法,就能得到最好的端侧模型,算是最好的大模型的赠品
直接点出 RL 现在只有在做题上有 Scaling Law,开放域还差得远 。这种实话在现在的 AI 播客里太难听到了,瑞斯拜。
思_KkNd
思_KkNd
2025.12.15
以前我们总觉得 AI 就是云端那个全知全能的超级大脑,但刘知远老师用了 IBM 当年“世界只需要 5 台计算机”的经典误判来类比 ,一下就把逻辑打通了。如果算力不能分布到每个人的手机、车机里,AGI 就永远只是少数人的昂贵玩具
面壁確實越來越強了