DeepSeek-V3.2-Exp 模型正式发布,这是一个基于 DeepSeek Sparse Attention (DSA) 的实验版本,旨在提高长文本训练和推理的效率。通过引入 DSA 这种稀疏注意力机制,新模型在不牺牲性能的前提下,显著提升了效率,并且其在公开基准测试中的表现与之前的 V3.1-Terminus 版本持平。由于新模型服务成本的大幅降低,官方 API 价格也随之下调 50% 以上;同时,该版本已在官方平台更新,并且 模型、论文、以及相关的 TileLang 和 CUDA 算子已同步开源。DeepSeek-V3.2-Exp 来了!长文本处理飞快,价格直接腰斩,真香!


DeepSeek-V3.2-Exp 重磅发布:效率革命DSA技术开源、API价格腰斩与深度开放策略解析
7分钟 ·
8·
0