本期为英文。
DeepSeek 于上周8月21日底低调放出了v3.1，采用了混合推理架构，允许模型在同一架构下支持思考模式（Reasoning Mode）和非思考模式（Non-Reasoning Mode），其中思考模式优化了多步推理能力，在复杂任务（如数学、编程、知识问答）中表现更强，同时 推理速度比 DeepSeek-R1-0528 更快，思维链压缩训练使输出 token 减少了 20%-50%，效率大幅提升。在工具使用和智能体任务、多语言优化方面有了显著提升，并进行128K 长上下文支持。
DeepSeek-V3.1 的 Base 模型 和 后训练模型 已在 Hugging Face 和 魔搭（ModelScope） 平台开源。
“知己知彼，百战不殆”，我们暂且把目光移到 OpenAI8月5日刚开源的 GPT-OSS，一起梳理它从GPT-2 一路走来的架构演进。
参考文章：
From GPT-2 to gpt-oss: Analyzing the Architectural Advances，作者：Sebastian Raschka

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

eurus.culture@gmail.com

新中登趣谈世界

联系我们：eurus.culture@gmail.com

AI_SUMMARIZE_EPISODE

北雍ECC｜中国视野趣谈世界

【北雍读书】从 GPT-2 到 GPT-OSS：架构演进深度解析

654f26aa500b3ef49a4d30fe/lsQhLn0gtBfiiLLAPBjtc-NAlVJe.m4a