DeepSeek开源连击、Claude编码升级、GPT性能迷局，系统解读大模型诸神之战 | 万有引力 - 《万有引力》

AI 大模型正在经历“神仙打架”时刻。

从开源技术到商业竞争，从性能突破到成本争议，甚至引发了一场“血案”！本期《万有引力》，我们将从技术、商业到未来趋势，带大家系统解读这场“诸神之战”，解读眼花缭乱的热点事件背后，真正值得大家关注的点。（本期节目于 3 月 4 日晚在 CSDN 视频号直播。）

嘉宾：

刘广，智源人工智能研究院数据研究组负责人

肖涵，Jina AI 创始人及 CEO

唐小引，CSDN&《新程序员》执行总编、《万有引力》主理人

我按照时间线和关键点进行了梳理：

首先是，DeepSeek 开源周所开源的项目，几乎是将自己核心的 AI Infra 技术都公布了出来：

可以总结归类为：

计算：FlashMLA、DeepGEMM，算力加速与硬件优化；

通信：DeepEP、DualPipe、EPLB，通信优化与并行计算；

存储：3FS、Smallpond，存储与数据处理。

这技术维度的开源五连发，DeepSeek 为什么要这么做，他们的真实意图是什么，从行业、AI 从业者、开发者这几个维度，分别会带来哪些影响？

DeepSeek 的 One More Thing：DeepSeek 官方披露了如何通过优化架构，让模型推理获得更大的吞吐和更低的延迟；以及大规模部署成本和收益，测算了在这种优化架构下，按照目前的收费策略，一天能赚多少钱——颠覆了很多人的认知。这留给我们的启示是什么？DeepSeek 公布模型推理成本利润细节，将会带来哪些影响（API 要降价？MoE 成必选）？

2 月 18 日，马斯克的 Grok 3：使用 20 万张 GPU（豪横），在数学、科学和编码基准测试中，击败了 Google Gemini、DeepSeek V3、Claude 以及 OpenAI 的 GPT-4o。于是就有声音说 Scaling Law 依然成立，还是要大力出奇迹。

但十天之后，2 月 28 日凌晨，OpenAI 正式发布了其迄今为止规模最大的 AI 模型——GPT-4.5（代号 Orion）。尽管 OpenAI 表示 GPT-4.5 是该公司有史以来算力和数据规模最大的模型，但这次的性能提升并未像此前 GPT 系列一样带来革命性的飞跃。不仅如此，GPT-4.5 高昂的运行成本和在一些关键基准测试上的表现差强人意，于是又让大家开始怀疑——AI 长期依赖的 Scaling Law，正在走向终点了吗？

2 月 18 日，DeepSeek 团队发布新型注意力机制 NSA，梁文锋署名。和 DeepSeek 发表 NSA 论文同期，Kimi 发布论文 MoBA，MoBA 将 MoE（专家混合）应用于注意力机制，通过遵循一种“less structure” 原则，允许模型自主决定关注哪些区域或位置。最终结果是，在保持模型性能不变的前提下，将处理 1M 和 10M 长文本的速度分别提升了 6.5 倍和 16 倍。而且按照论文得出的结论：MoBA 开箱即用，它能轻松融入现有模型，无需高昂训练成本。

都是集中在稀疏注意力机制上。此前 MiniMax 发表了线性注意力机制的论文。

2 月 25 日，Anthropic 重磅发布首个混合推理模型——Claude 3.7 Sonnet。这个模型在编码和前端 Web 开发方面表现突出，用户既可以让模型给出实时答案，也可以给出经过深思熟虑的答案。Perplexity Pro、Cursor、Windsurf 等各个工具与平台都第一时间上线。

“源神”DeepSeek、克制的 Claude、豪横的 Grok 与 GPT，谁更值得关注？有没有很重要但是被大家忽视的？GPT-4.5 被低估了吗？现在还有什么被大家低估或者应该重视的模型、技术？

一起来听本期节目的讨论~

BGM：《代码星辰》By DeepSeek+Suno

关于《万有引力》：

这是由 CSDN&《新程序员》执行总编唐小引主理的对话栏目。技术趋势多变，一不留神总担心错过。正在发生的技术事件，对于我们开发者意味着什么？我们面临的诸多困惑从何寻找答案？《万有引力》即志在于此，直面事件与困惑，抽丝剥茧，解读技术真相。

栏目定位：一档面向开发者群体，聚焦解读技术事件的对话直播栏目。

直播观看平台：CSDN 视频号、CSDN 网站&App

多形式：文章、视频、音频都会有，持续关注 CSDN 公众号都可获取。目前《万有引力》栏目已上线小宇宙平台，欢迎大家关注！