本期为英文。
DeepSeek 于上周8月21日底低调放出了v3.1,采用了混合推理架构,允许模型在同一架构下支持思考模式(Reasoning Mode)和非思考模式(Non-Reasoning Mode),其中思考模式优化了多步推理能力,在复杂任务(如数学、编程、知识问答)中表现更强,同时 推理速度比 DeepSeek-R1-0528 更快,思维链压缩训练使输出 token 减少了 20%-50%,效率大幅提升。在工具使用和智能体任务、多语言优化方面有了显著提升,并进行128K 长上下文支持。
DeepSeek-V3.1 的 Base 模型 和 后训练模型 已在 Hugging Face 和 魔搭(ModelScope) 平台开源。
“知己知彼,百战不殆”,我们暂且把目光移到 OpenAI8月5日刚开源的 GPT-OSS,一起梳理它从GPT-2 一路走来的架构演进。
参考文章:
From GPT-2 to gpt-oss: Analyzing the Architectural Advances,作者:Sebastian Raschka

