【北雍读书】从 GPT-2 到 GPT-OSS:架构演进深度解析北雍评论

【北雍读书】从 GPT-2 到 GPT-OSS:架构演进深度解析

21分钟 ·
播放数14
·
评论数0

本期为英文。

DeepSeek 于上周8月21日底低调放出了v3.1,采用了混合推理架构,允许模型在同一架构下支持思考模式(Reasoning Mode)非思考模式(Non-Reasoning Mode),其中思考模式优化了多步推理能力,在复杂任务(如数学、编程、知识问答)中表现更强,同时 推理速度比 DeepSeek-R1-0528 更快,思维链压缩训练使输出 token 减少了 20%-50%,效率大幅提升。在工具使用和智能体任务、多语言优化方面有了显著提升,并进行128K 长上下文支持。

DeepSeek-V3.1 的 Base 模型后训练模型 已在 Hugging Face魔搭(ModelScope) 平台开源。

“知己知彼,百战不殆”,我们暂且把目光移到 OpenAI8月5日刚开源的 GPT-OSS,一起梳理它从GPT-2 一路走来的架构演进。

参考文章:

From GPT-2 to gpt-oss: Analyzing the Architectural Advances,作者:Sebastian Raschka