【第612期】DeepSeek-V4:高效百万长度上下文智能语言模型Seventy3

【第612期】DeepSeek-V4:高效百万长度上下文智能语言模型

21分钟 ·
播放数3
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Summary

我们提出 DeepSeek-V4 系列的预览版本,包括两款强大的混合专家(Mixture-of-Experts, MoE)语言模型:

  • DeepSeek-V4-Pro:1.6T 参数(其中 49B 参数在推理时激活)

  • DeepSeek-V4-Flash:284B 参数(其中 13B 参数在推理时激活)

两者均支持高达 100 万 token 的上下文长度。

DeepSeek-V4 系列在架构与优化方面包含若干关键升级:

  1. 混合注意力架构(hybrid attention architecture)
    结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与高度压缩注意力(Heavily Compressed Attention, HCA),以提升长上下文效率;

  2. 流形约束超连接(Manifold-Constrained Hyper-Connections, mHC)
    用于增强传统残差连接的表达能力与稳定性;

  3. Muon 优化器
    提升收敛速度并增强训练稳定性。

在训练方面,我们使用超过 32 万亿(32T)多样且高质量的 token 进行预训练,并在此基础上采用完整的后训练流程,以进一步释放并增强模型能力。

在推理能力方面,DeepSeek-V4-Pro-Max(即 DeepSeek-V4-Pro 的最大推理强度模式)在开源模型中达到新的最先进水平,在核心任务上超越其前代模型。

同时,DeepSeek-V4 系列在长上下文场景中表现出极高效率:

在 100 万 token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2:

  • 单 token 推理 FLOPs 仅为 27%

  • KV cache 仅为 10%

这使得系统能够常态化支持百万 token 上下文,从而使长时程任务与进一步的测试时扩展(test-time scaling)变得更可行。

模型权重已发布在 Hugging Face:
huggingface.co

原文链接:huggingface.co