DeepSeek-V4:高效百万 Token 上下文智能

DeepSeek-V4:高效百万 Token 上下文智能

54分钟 ·
播放数191
·
评论数0

DeepSeek-V4 系列是下一代大规模混合专家(MoE)语言模型,旨在突破超长文本处理的效率瓶颈。该系列包括 DeepSeek-V4-Pro(1.6T 总参数,49B 激活)和 DeepSeek-V4-Flash(284B 总参数,13B 激活),两者均原生支持 100 万 token 的上下文长度。

以下是该模型的核心内容总结:

1. 核心架构突破

DeepSeek-V4 在架构上引入了三项关键创新:

  • 混合注意力机制 (Hybrid Attention): 结合了压缩稀疏注意力 (CSA)重度压缩注意力 (HCA)。CSA 将每 $m$ 个 token 压缩为一个 KV 项并应用稀疏注意力,而 HCA 进行更激进的压缩但保持稠密注意力。
  • 流形约束超连接 (mHC): 升级了传统的残差连接,通过将残差映射约束在特定流形上,增强了深层模型信号传播的稳定性。
  • Muon 优化器: 引入该优化器以实现更快的收敛速度和更强的训练稳定性。

2. 极致的推理效率

得益于架构优化,DeepSeek-V4 在长文本场景下表现出惊人的效率。在 100 万 token 的上下文设置中,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,其 KV 缓存(KV Cache)大小仅为后者的 10%。更轻量的 Flash 版本则进一步将 KV 缓存缩减至 7%。

3. 训练与后训练流程

  • 预训练: 在超过 32T 高质量多样化 token 上进行预训练。
  • 专家培养与蒸馏: 采用两阶段范式。首先独立培养数学、代码、智能体等领域的专家模型;随后通过在线策略蒸馏 (On-Policy Distillation, OPD) 将这些专家的能力整合进统一的学生模型中,避免了传统权重合并带来的性能损失。

4. 性能表现与评估

  • 知识与推理: DeepSeek-V4-Pro-Max 在 SimpleQA 等知识基准测试中刷新了开源模型的最优纪录,显著领先于其他开源 baseline。在 Codeforces 编程竞赛评级中,其表现可比肩 GPT-5.4,目前在人类选手中排名第 23 位。
  • 智能体 (Agent):SWE VerifiedTerminal Bench 2.0 等智能体任务上表现出色, generalization 能力极强,能够高效处理复杂的企业级工作流。
  • 长文本理解: 在 100 万 token 范围内保持了极高的检索稳定性,在多个学术基准上超越了 Gemini-3.1-Pro。

5. 现实世界应用

模型在 中文写作智能体搜索 (Agentic Search) 以及白领专业任务(如报告生成、方案策划、数据分析)中表现优异。特别是在中文创作质量上,其胜率显著高于 Gemini-3.1-Pro,并能主动预测用户意图进行自我验证。

图片来自一支花社区烟花老师提供