S2E04: 训练与推理:AI的“学习”和“工作”

S2E04: 训练与推理:AI的“学习”和“工作”

7分钟 ·
播放数226
·
评论数0

大家好,我是小艾,欢迎回到《AI有点意思》。在我们的核心解密之旅中,我们已经见识了驱动AI的“新大脑”Transformer,也弄懂了它理解世界的基本单位Token。那么今天,我们要解答一个可能困扰很多人的根本问题:一个像GPT这样博学多才、对答如流的AI,究竟是如何被“创造”出来的?它的“智慧”从何而来,又在何时展现?

为了说清这个复杂的过程,我想用一个大家都能理解的比喻。创造一个强大的人工智能,很像人类社会培养一位顶尖的天才专家——比如一位渊博的学者、一位技艺超群的外科医生,或者一位洞察力惊人的侦探。这个培养过程,可以清晰地分为两个截然不同的阶段:一个漫长而艰苦的“学习期”,和一个高效产出价值的“工作期”。在AI的世界里,它们有自己专属的名字:训练 和 推理。

让我们先潜入那个耗费了无数电力、汇聚了海量数据、安静而宏大的“学习期”——模型训练。

请你想象这样一个场景:我们把一个初始的、像新生儿一样“空白”的Transformer模型,放进一个拥有整个互联网规模文本的“超级图书馆”里。这个图书馆里有多少书呢?它的藏书量高达数千亿个Token,涵盖了百科、小说、新闻、代码、论坛对话……几乎人类用文字记录的一切。

模型的“学习”任务,听起来简单得令人意外:根据给定的上文,预测下一个最可能出现的词(Token)是什么。比如,看到“今天天气很…”,它要学习预测出“好”、“热”、“冷”等词的概率。但请不要小看这个任务,它本质上是在迫使模型去捕捉语言中所有的语法规则、知识关联、逻辑链条和表达风格。

为了实现这个目标,模型内部有数以百亿甚至万亿计的微小“神经旋钮”,我们称之为参数。你可以把这些参数想象成这个“数字大脑”里所有神经元之间连接的强弱调节器。训练的过程,就是模型在“阅读”海量句子时,每猜错一次,就自动微调一波这些旋钮;猜对了,就强化当前的设置。通过千万亿次这样的试错和调整,这些参数值逐渐被固定下来,形成了一套复杂精密的内部“知识图谱”和“语言模型”。参数规模越大,通常意味着这个“大脑”的容量和潜力越大,能够记忆更复杂的模式,建立更遥远的联系。

所以,训练的本质,是通过海量数据灌注和反复试错,让AI模型自己找到一组最优的参数配置。这就像一个孩子通过沉浸式的、海量的阅读和听说,不是死记硬背语法书,而是在潜移默化中掌握了语言的精髓和世界的常识。这个过程极其昂贵和耗时,需要庞大的计算集群不间断运行数周甚至数月,消耗的电力堪比一个小型城市。这才是开发一个大型AI真正的成本所在。

当然,实际的训练算法比“猜词-调旋钮”要复杂和精密得多,它涉及梯度下降、反向传播等一系列数学方法,但核心目标从未改变:让预测越来越准。

当训练完成,模型的所有“神经旋钮”——也就是那千亿、万亿的参数——都被最终确定并保存下来。这时,它就正式“毕业”,进入了“工作期”,也就是模型推理。

推理,就是我们每个人日常与AI互动的那个神奇时刻。当你向ChatGPT提出一个问题,或者让它写一首诗时,启动的就是推理过程。这时,训练好的模型不再需要调整任何参数,它像一个学识已经融会贯通的专家,只是快速调用自己毕生所学。

具体来说,它会将你的问题(输入Token序列)放进它那已经定型的大脑(固定参数的网络)中,进行一系列高速的数学计算,然后逐词(Token)地生成回答。它生成第一个词后,会把这个词和你的问题一起,作为新的输入,再去生成第二个词,如此循环,直到完成完整的回答。这个过程在强大的芯片上可以在毫秒间完成,对我们用户而言,就是一次流畅的、仿佛有思想的对话。

因此,训练和推理的关系,可以用一个更形象的比喻来总结:训练是“十月怀胎”,推理是“一朝分娩”。

训练是那个漫长、昂贵、不直接面向用户的孕育过程,目标是形成一个拥有巨大“脑容量”(参数)和丰富“知识”(参数值)的“胎儿”。

推理则是这个“胎儿”出生后,运用它所具备的所有能力,去解决具体问题、进行创造、与我们交互的每一次展现。它快速、直接,是我们感知AI智能的唯一窗口。

而我们经常在新闻里看到的“千亿参数模型”、“万亿参数模型”,那个数字,衡量的正是这个AI“胎儿”在“出生”时,其“大脑”的复杂度和潜在容量,是它“学习期”成果的核心量化指标。

理解了这个根本分野,很多现象就豁然开朗了:为什么开发一个顶级AI模型需要投入数亿美元,而我们使用它却相对廉价?因为前者支付的是“怀胎十月”的巨额成本,而后者支付的只是“一朝分娩”那次具体“接生”的服务费。为什么同一个模型,有时回答精彩绝伦,有时又会出现“一本正经的胡说八道”?因为在推理时,它只是在基于统计学概率进行“联想”和“生成”,它并没有在“思考”或“理解”,那些看似睿智的答案,是它庞大训练数据中模式的涌现。

所以,下次当你与AI对话,惊叹于它的才思敏捷时,不妨回想一下,在这瞬间的“智能涌现”背后,是它曾经消化过的一片文字的海洋,和一场沉默而浩瀚的参数调校。这既是现代AI力量的源泉,也定义了它能力的边界与特质。

我是小艾,感谢收听本期《AI有点意思》。我们下次见。