介绍了五项研究,主题涵盖大语言模型的跨语言知识表示、Transformer 学习随机化算法、推测式解码加速长文本生成、语言模型训练曲线新公式以及代码数据对预训练的积极影响。完整推介:mp.weixin.qq.com