本期为英文。
自最初的GPT架构开发以来,已经过去七年。回顾GPT-2(2019年),并再看DeepSeek-V3和Llama 4(2024-2025年),人们可能会惊讶于这些模型在结构上仍然如此相似。
位置嵌入(positional embeddings)已经从绝对位置编码演进到旋转位置编码(RoPE),多头注意力机制(Multi-Head Attention)很大程度上已经让位给分组查询注意力机制(Grouped-Query Attention),更高效的SwiGLU也取代了GELU等激活函数。但在这些细微改进之下,真的有突破性的变化吗?还是只是在打磨相同的架构基础?
比较大语言模型以确定促成其某些好的或是不好的性能的关键要素非常困难:数据集、训练技术和超参数差异很大,而且往往没有很好的文档记录。
然而,检查架构本身的结构性变化仍然很有价值,可以了解2025年大语言模型开发者们在做什么。
在这期内容所分析的文章中,作者没有讨论基准性能或训练算法,而是专注于定义当今旗舰开源模型的架构发展。

