消失了450多天,那个曾让英伟达市值一夜蒸发6000亿美元的DeepSeek,带着V4正式杀回了全球视野 。这一次,它不再仅仅追求性能指标上的微弱领先,而是试图在技术架构与芯片主权之间,劈开一条属于国产AI的生存路径。
本期视频将结合《麻省理工科技评论》(MIT Technology Review)的深度视角 ,硬核拆解DeepSeek V4背后的关键变量:
1) 注意力革命:如何通过“压缩稀疏注意力(CSA)”和“重度压缩注意力(HCA)”,实现成本骤降的百万级长文本 。
2) 算力突围:首次针对华为昇腾芯片深度优化,这是否意味着国产AI基础设施闭环的开始 ?DeepSeek V4的发布不仅是模型的进化,更是中国AI从“做模型”转向“搭系统”的质变里程碑。
- :明星公司回归。DeepSeek 在经历了 15 个月的沉寂、核心成员变动及海外监管指控后,凭借 V4 模型重回公众视野 。
- :百万上下文突破。V4 并非单纯堆砌参数,而是通过改变注意力架构,将 100 万 token(约一整部《红楼梦》)的处理推向工程化实用 。
- :精巧压缩策略。通过 CSA(稀疏注意力压缩)和 HCA(极度压缩)两种机制,模仿人类阅读逻辑,大幅降低长文本处理的算力成本 。
- :适配国产算力。V4 首次深度支持华为昇腾芯片,形成“训练靠英伟达,推理用昇腾”的半脱钩模式,迈向算力自主化 。
- :从能力到体系。V4 的意义在于向世界展示,中国公司不仅能做出强模型,还能构建起包含芯片、框架与服务的完整基础设施闭环 。

