由Google Brain等团队提出并详细描述了Transformer这一基于注意力机制的全新序列转换模型,核心在于用多头自注意力(Multi-Head Attention)取代传统的循环或卷积层,从而实现对输入输出序列全局依赖的建模并显著提高并行化能力。模型结构由编码器与解码器各自堆叠的自注意力子层和逐位置前馈网络组成,辅以残差连接、层归一化、位置编码 , 奠定了后续基于注意力的模型发展。