【第612期】DeepSeek-V4：高效百万长度上下文智能语言模型

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Summary

我们提出 DeepSeek-V4 系列的预览版本，包括两款强大的混合专家（Mixture-of-Experts, MoE）语言模型：

两者均支持高达 100 万 token 的上下文长度。

DeepSeek-V4 系列在架构与优化方面包含若干关键升级：

混合注意力架构（hybrid attention architecture）
结合压缩稀疏注意力（Compressed Sparse Attention, CSA）与高度压缩注意力（Heavily Compressed Attention, HCA），以提升长上下文效率；
流形约束超连接（Manifold-Constrained Hyper-Connections, mHC）
用于增强传统残差连接的表达能力与稳定性；
Muon 优化器
提升收敛速度并增强训练稳定性。

在训练方面，我们使用超过 32 万亿（32T）多样且高质量的 token 进行预训练，并在此基础上采用完整的后训练流程，以进一步释放并增强模型能力。

在推理能力方面，DeepSeek-V4-Pro-Max（即 DeepSeek-V4-Pro 的最大推理强度模式）在开源模型中达到新的最先进水平，在核心任务上超越其前代模型。

同时，DeepSeek-V4 系列在长上下文场景中表现出极高效率：

在 100 万 token 上下文设置下，DeepSeek-V4-Pro 相比 DeepSeek-V3.2：

这使得系统能够常态化支持百万 token 上下文，从而使长时程任务与进一步的测试时扩展（test-time scaling）变得更可行。

模型权重已发布在 Hugging Face：
huggingface.co

原文链接：huggingface.co