DeepSeek-V4 系列是下一代大规模混合专家(MoE)语言模型,旨在突破超长文本处理的效率瓶颈。该系列包括 DeepSeek-V4-Pro(1.6T 总参数,49B 激活)和 DeepSeek-V4-Flash(284B 总参数,13B 激活),两者均原生支持 100 万 token 的上下文长度。
以下是该模型的核心内容总结:
1. 核心架构突破
DeepSeek-V4 在架构上引入了三项关键创新:
- 混合注意力机制 (Hybrid Attention): 结合了压缩稀疏注意力 (CSA) 和重度压缩注意力 (HCA)。CSA 将每 $m$ 个 token 压缩为一个 KV 项并应用稀疏注意力,而 HCA 进行更激进的压缩但保持稠密注意力。
- 流形约束超连接 (mHC): 升级了传统的残差连接,通过将残差映射约束在特定流形上,增强了深层模型信号传播的稳定性。
- Muon 优化器: 引入该优化器以实现更快的收敛速度和更强的训练稳定性。
2. 极致的推理效率
得益于架构优化,DeepSeek-V4 在长文本场景下表现出惊人的效率。在 100 万 token 的上下文设置中,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,其 KV 缓存(KV Cache)大小仅为后者的 10%。更轻量的 Flash 版本则进一步将 KV 缓存缩减至 7%。
3. 训练与后训练流程
- 预训练: 在超过 32T 高质量多样化 token 上进行预训练。
- 专家培养与蒸馏: 采用两阶段范式。首先独立培养数学、代码、智能体等领域的专家模型;随后通过在线策略蒸馏 (On-Policy Distillation, OPD) 将这些专家的能力整合进统一的学生模型中,避免了传统权重合并带来的性能损失。
4. 性能表现与评估
- 知识与推理: DeepSeek-V4-Pro-Max 在 SimpleQA 等知识基准测试中刷新了开源模型的最优纪录,显著领先于其他开源 baseline。在 Codeforces 编程竞赛评级中,其表现可比肩 GPT-5.4,目前在人类选手中排名第 23 位。
- 智能体 (Agent): 在 SWE Verified 和 Terminal Bench 2.0 等智能体任务上表现出色, generalization 能力极强,能够高效处理复杂的企业级工作流。
- 长文本理解: 在 100 万 token 范围内保持了极高的检索稳定性,在多个学术基准上超越了 Gemini-3.1-Pro。
5. 现实世界应用
模型在 中文写作、智能体搜索 (Agentic Search) 以及白领专业任务(如报告生成、方案策划、数据分析)中表现优异。特别是在中文创作质量上,其胜率显著高于 Gemini-3.1-Pro,并能主动预测用户意图进行自我验证。

图片来自一支花社区烟花老师提供
