随着 ChatGPT 于 2022 年发布,大语言模型可谓修得正果,迅速地风靡全球并彻底改变了许多人的工作方式。对基本概念和底层代码的方方面面建立信心是迈向成功的关键所在,本书将带领读者探索如何一步步地构建一个完整的类 GPT 大语言模型。读者将学习如何规划和编写大模型的各个组成部分、为大模型训练准备适当的数据集、进行通用语料库的预训练,以及定制特定任务的微调。此外,本书还将探讨如何利用人工反馈确保大模型遵循指令,以及如何将预训练权重加载到大模型中。
全书共分为 7 章,涵盖了大语言模型及其具体实现的关键要素:
第 1 章介绍大语言模型的基本概念。
第 2 章提出了一个从零开始构建大语言模型的计划,涵盖为模型训练准备文本数据集的整个流程。
第 3 章重点介绍了大语言模型中使用的注意力机制以及了因果注意力模块的实现。
第 4 章专注于编写一个能够通过训练生成类似人类语言文本的类 GPT 大语言模型。包括稳定神经网络的训练、提升训练效率的技术手段以及计算 GPT 模型的参数量和存储需求等一系列实践技术。
第 5 章实现了大语言模型的预训练流程。内容包括评估成文本生成的质量,实现预训练以及保存和加载模型权重。
第 6~7 章展示了多种大语言模型微调方法,并探讨了模型的指令微调过程。
本书在原英文版基础上,于附录部分增入一个新的章节,以 DeepSeek-R1 模型为例,介绍了构建推理模型的主流方法,并探讨了如何提升大语言模型的推理能力。帮助读者在这一快速演变的文献和热潮中找到方向。
本书适合对机器学习和生成式 AI 感兴趣的读者阅读。读者无需机器学习、深度学习和人工智能领域背景知识,但应掌握高中以上水平的数学知识,尤其是对向量和矩阵有深入了解,同时具备扎实的 Python 编程基础。


