大家好,我是小艾,欢迎回到《AI有点意思》第二季。
在上一期节目里,我们走进了AI的硬件车间,认识了驱动AI的三大动力引擎——GPU、TPU和NPU,理解了“算力”这个硬通货的价值。但不知你是否思考过一个更根本的问题:为什么所有科技巨头都在不惜代价地做“更大”的模型?从百亿参数到千亿参数,再到传闻中的万亿参数,这仅仅是盲目的军备竞赛,还是背后隐藏着一条清晰可循的“金科玉律”?
今天,我们就来揭示这条驱动了整个AI浪潮的底层法则——Scaling Law,中文叫“缩放法则”。它解释了为什么“大力”真的能“出奇迹”,也为我们理解AI的未来发展提供了一把钥匙。
故事要从2020年说起。那一年, OpenAI的研究人员发表了一篇颇具影响力的论文。他们做了一个看似枯燥、实则意义深远的实验:系统地研究模型性能与三个核心要素之间的关系——模型参数规模、训练数据量,以及投入的计算资源。
他们发现了一个惊人的规律:当你把模型的参数增加一倍,同时把训练数据也增加一倍,并投入相应的计算资源时,模型的性能并不是随机波动,而是会以一种非常稳定、可预测的方式提升。这种关系如果用图表画出来,是一条平滑的幂律曲线。也就是说,模型性能与规模之间,存在一种数学上可预测的正比关系。
这就是 Scaling Law 的核心思想:只要规模足够大,投入足够多,模型的能力就能稳定地、可预期地变强。
这条规律的意义怎么强调都不过分。在此之前,训练AI更像是一门“炼金术”——你调整模型架构、优化算法,但效果如何,常常要等训练结束才知道,充满了不确定性。而Scaling Law的出现,相当于为整个行业提供了一张清晰的“藏宝图”。
它告诉科技公司们:沿着“扩大规模”这条路挖下去,就很可能挖到“更强智能”的金矿。你不需要再在架构上做太多精巧的、不确定的创新,只需要把模型做得更大,把数据喂得更多,把算力堆得更足,性能的提升就是可以预期的。这就像找到了一个“确定性”的按钮。
正是这条法则,直接驱动了随后几年的“千亿、万亿参数模型”竞赛。为什么GPT系列一代比一代大?为什么谷歌、Meta、Anthropic都在疯狂扩充模型规模?因为Scaling Law告诉他们,这是通往更强智能的一条已被验证的、相对确定的路径。它不是玄学,而是经验科学。
我们可以用一个比喻来理解:Scaling Law就像给AI的“大脑”划定了一条成长曲线。一个孩子的大脑神经元数量越多(参数),他接触到的书籍和对话越多(数据),他花在学习上的时间越长(算力),他的认知能力和知识水平就大概率会更高。虽然个体有差异,但在统计意义上,这条规律是成立的。
然而,任何法则都有其边界。当我们沿着这条“藏宝图”狂奔时,一些深刻的疑问也开始浮现:
第一,数据的极限。模型训练需要海量的、高质量的文本数据。有人估算,按照目前的扩张速度,我们可能在几年内就会耗尽人类文明积累的所有高质量文本数据。当“燃料”枯竭,Scaling Law还能继续生效吗?
第二,能源的极限。我们上一期提到,训练GPT-4的耗电量已经堪比一个小型城市。如果未来出现十亿、百亿参数的模型,它对电力的需求将达到何种天文数字?地球的能源供给能否支撑?
第三,收益递减的临界点。虽然Scaling Law告诉我们性能会随着规模提升,但这种提升的“性价比”是否会逐渐下降?当为了提升最后那1%的性能,需要消耗之前100倍的成本时,这条路在经济上还走得通吗?
更深层的思考是:“缩放”真的是通往通用人工智能的唯一道路吗?人类的智能,并不仅仅是“大脑更大”就能实现的。我们拥有常识、因果推理、抽象思维和情感理解,这些是否都能通过单纯地扩大语言模型的规模而“涌现”出来?还是说,我们需要全新的架构、全新的学习范式?
这些问题,至今没有确定的答案。Scaling Law在过去几年里指引了AI的飞跃,但它可能只是通往更高智能的“第一段阶梯”。未来的路,或许需要新的法则来指引。
总结今天的核心内容:Scaling Law,即“缩放法则”,揭示了模型性能与参数规模、数据量和计算量之间的可预测幂律关系。它为“大力出奇迹”提供了理论依据,成为驱动AI巨头们竞逐更大模型的核心动力。然而,这条法则并非没有边界,数据的枯竭、能源的极限以及收益递减的可能,都让我们不得不思考:Scaling Law是通往通用智能的终极法则,还是仅仅是一个辉煌的开端?对这个问题的探索,将定义AI下一个十年的方向。
我是小艾,感谢收听本期《AI有点意思》,我们下期再会。
