朋友们,《万有引力》上新啦~一起来聊聊 DeepSeek 对 AI 技术及开发者的刷新。
从 DeepSeek 爆火至今,我们能够看到一些大佬关于 DeepSeek 的言论:
- 马斯克对于 DeepSeek R1 是否是 AI 领域的一次彻底革命这个问题,很明确地说了「不是」,并表示,“xAI 和其他一些公司很快就会发布比 DeepSeek 更好的模型”。
- 谷歌 DeepMind 首席执行官 Demis Hassabis:DeepSeek 的 AI 模型可能是“我见过的来自中国最好的作品”。但他认为从技术角度来看,模型并未带来新的科学进展,而是使用了已知的技术,外界对其炒作可能“有点夸张”。
- Anthropic(开发 Claude 模型的公司)CEO Dario Amodei 之前发布了篇“万字长文”,说:DeepSeek-V3 并不构成根本性突破或创新,DeepSeek-R1 的研究价值甚至连 V3 都不如。
这其实核心讨论的是 DeepSeek 技术创新的问题。其实我们能够看到,当大家都烧钱堆算力,DeepSeek 却选择了烧脑改算法。比如:
- 强化学习:DeepSeek 靠着纯强化学习,找到了激发模型推理能力的秘诀,还把模型的思考过程直接展现给了所有的用户。
- 在 Transformer 架构的基础上,使用 MoE(混合专家模型)、MLA(多头潜在注意力)。
而对于离 AI 最近的程序员来说,一方面,模型的代码能力依然在突飞猛进,从最开始因其局限性令人嗤之以鼻,但现在能力越来越强了;另一方面,Sam Altman、扎克伯格都说过,未来 AI Agent 能够完成大部分经验 3 - 5 年的软件工程师。怎么看待和处理 AI 与程序员之间的关系?当 AI 变得越来越“像人” 的时候,我们是否应该反思人类智能的独特性和价值?
所以这一期里,我特别引用了「刷新」这个词,和大家一起深入聊聊 DeepSeek 对 AI 技术、对开发者的刷新。

嘉宾:
崔淦渠,上海人工智能实验室青年科学家
吕仲琪,中国石油大学(北京)副教授、人工智能学院计算机系系主任
唐小引,CSDN&《新程序员》执行总编、《万有引力》主理人
本期节目于元宵节晚上在 CSDN 视频号直播,有一万多位朋友线上参与了这场直播与互动,也是别样的记忆。特此 BGM《代码赠予我的》送给大家,AI 唱的离空灵的王菲差了十万八千里哈哈。
时间戳:
01:38 AI 学术圈怎么看 DeepSeek 的创新
06:24 如何看待马斯克、DeepMind、Anthropic 质疑 DeepSeek 的言论
08:35 DeepSeek 的意义比肩 OpenAI 发布 ChatGPT,未来半年复现 DeepSeek 会成为圈内主要目标
14:33 推理圈的清流:详细拆解 DeepSeek 开发的强化学习新“杀手锏”—— GRPO 算法
24:59 为什么强化学习是下一个 Scaling Law?
50:10 强化学习也不是万能的,对于推理能力我们还有更好的方案吗?
1:00:28 揭秘 DeepSeek 内幕:步步为营,DeepSeek 是如何逐步炼成的
1:05:16 从梁文锋的论文署名可窥 DeepSeek 的投入重点方向
1:06:41 大模型历史,DeepSeek R1-Zero 必有一笔
1:07:52 热点解读:为什么苹果国行版 AI 没有选择 DeepSeek?
1:14:48 DeepSeek 启示:长期主义探索与技术的极致
1:18:22 压力给到所有大模型从业者:DeepSeek 引发的鲶鱼效应
1:24:26 MoE 不适合小模型,优势在于超大模型
1:29:22 高校老师有话说:如果完全用大模型,人类的竞争力在哪里?论文大量使用 AI 属于学术不端?
1:35:47 程序员革了自己的命?重新思考 AI 与程序员的关系
1:42:07 提示工程没有终结
2:00:06 BGM《代码赠予我的》By AI,欢迎收听。
关于《万有引力》:
这是由 CSDN&《新程序员》执行总编唐小引主理的对话栏目。技术趋势多变,一不留神总担心错过。正在发生的技术事件,对于我们开发者意味着什么?我们面临的诸多困惑从何寻找答案?《万有引力》即志在于此,直面事件与困惑,抽丝剥茧,解读技术真相。
栏目定位:一档面向开发者群体,聚焦解读技术事件的对话直播栏目。
直播观看平台:CSDN 视频号、CSDN 网站&App
多形式:文章、视频、音频都会有,持续关注 CSDN 公众号都可获取。目前《万有引力》栏目已上线小宇宙平台,欢迎朋友们关注~

