DeepSeek-V4：高效百万 Token 上下文智能

DeepSeek-V4 系列是下一代大规模混合专家（MoE）语言模型，旨在突破超长文本处理的效率瓶颈。该系列包括 DeepSeek-V4-Pro（1.6T 总参数，49B 激活）和 DeepSeek-V4-Flash（284B 总参数，13B 激活），两者均原生支持 100 万 token 的上下文长度。

以下是该模型的核心内容总结：

1. 核心架构突破

DeepSeek-V4 在架构上引入了三项关键创新：

混合注意力机制 (Hybrid Attention)： 结合了压缩稀疏注意力 (CSA) 和重度压缩注意力 (HCA)。CSA 将每 $m$ 个 token 压缩为一个 KV 项并应用稀疏注意力，而 HCA 进行更激进的压缩但保持稠密注意力。

流形约束超连接 (mHC)： 升级了传统的残差连接，通过将残差映射约束在特定流形上，增强了深层模型信号传播的稳定性。

Muon 优化器： 引入该优化器以实现更快的收敛速度和更强的训练稳定性。

2. 极致的推理效率

得益于架构优化，DeepSeek-V4 在长文本场景下表现出惊人的效率。在 100 万 token 的上下文设置中，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，其 KV 缓存（KV Cache）大小仅为后者的 10%。更轻量的 Flash 版本则进一步将 KV 缓存缩减至 7%。

3. 训练与后训练流程

预训练： 在超过 32T 高质量多样化 token 上进行预训练。

专家培养与蒸馏： 采用两阶段范式。首先独立培养数学、代码、智能体等领域的专家模型；随后通过在线策略蒸馏 (On-Policy Distillation, OPD) 将这些专家的能力整合进统一的学生模型中，避免了传统权重合并带来的性能损失。

4. 性能表现与评估

知识与推理： DeepSeek-V4-Pro-Max 在 SimpleQA 等知识基准测试中刷新了开源模型的最优纪录，显著领先于其他开源 baseline。在 Codeforces 编程竞赛评级中，其表现可比肩 GPT-5.4，目前在人类选手中排名第 23 位。

智能体 (Agent)： 在 SWE Verified 和 Terminal Bench 2.0 等智能体任务上表现出色， generalization 能力极强，能够高效处理复杂的企业级工作流。

长文本理解： 在 100 万 token 范围内保持了极高的检索稳定性，在多个学术基准上超越了 Gemini-3.1-Pro。

5. 现实世界应用

模型在 中文写作、智能体搜索 (Agentic Search) 以及白领专业任务（如报告生成、方案策划、数据分析）中表现优异。特别是在中文创作质量上，其胜率显著高于 Gemini-3.1-Pro，并能主动预测用户意图进行自我验证。

图片来自一支花社区烟花老师提供