E179|DeepSeek技术解析:为何引发英伟达股价下跌?

E179|DeepSeek技术解析:为何引发英伟达股价下跌?

65分钟 ·
播放数79616
·
评论数183

随着DeepSeek登上苹果App Store榜首,这款低成本、高性能的开源模型引发全球关注的同时,也造成了英伟达股价在1月27日下跌近17%,市值蒸发5890亿美元。按理说,像DeepSeek这样的开源模型会带动AI创业繁荣,进而推高GPU需求。为什么英伟达却不涨反跌?本期节目我们将和模型算法、GPU虚拟化领域的学者与创业者,一起探讨DeepSeek的核心优势,它对芯片产业和开源生态的影响,还原这场市场震动背后的逻辑。

【主播】
泓君Jane,硅谷101创始人,播客主理人
【嘉宾】
陈羽北,加州大学戴维斯分校电子与计算机工程系助理教授,AIzip.ai联合创始人
John Yue,Inference.ai创始人兼CEO

【你将听到】
02:29 DeepSeek的三板斧:低成本、高性能、全开源
03:57 大模型创新瓶颈:技术路线趋同,突破性想法变少
05:09 核心创新:V3基础模型能力强
07:01 创新一:MOE与绕过稀疏奖励
09:04 创新二: 通过蒸馏学习传递能力,大模型教小模型
12:46 为何V3出来一个月之后才引爆股市
13:54 对英伟达利好与利空:冲击溢价但并未冲垮壁垒
16:01 DeepSeek冲击英伟达两大护城河:“绕过”NVLink和CUDA
23:00 类似于Groq的推理芯片能崛起吗?软件依然是难点
29:11 《The Bitter Lesson》的启发:AI的两种基本能力是学习与搜索
30:06 效率困境:AI需要跨越三个数量级才能达到人类智能
35:20 开源的意义:降低AI应用开发准入门槛
38:06 重构API价格体系:DeepSeek R1通过技术优化将成本降至OpenAI O1的1/27
39:47 降级芯片难持续:老款芯片停产限制了成本优化空间
43:08 小模型特定场景突破:某些任务已可媲美大模型表现
45:34 未来AI基建分层化:端、边、云分工协同是趋势
48:32 Anthropic的预测过分乐观:AI学习效率太低不足以追赶人类智能
53:10 大模型本身不足以通向AGI,但基础研究方向正在取得进展
56:00 模型自我能力提升是达到AGI的核心门槛
57:33 通往AGI的多条路径:世界模型等不同技术方向并存
01:03:22 提问DeepSeek :数据与持续创新能力

【其他相关信息】

  • MOE (Mixture of Experts,专家混合模型):一种神经网络架构,结合多个专家子模型进行工作,通过负载均衡提高效率,适用于大规模模型。
  • Bootstrap (自举法):模型通过生成多个答案并选择最佳结果,来提升自身性能的自我改进方法。
  • 蒸馏 (Distillation):将大模型的知识转移给小模型,通过模仿大模型的输出,提高小模型的能力。
  • GRPO (Group Relative Policy Optimization ,分组相对策略优化):一种用于强化学习的优化算法,通过在同一问题下生成多个输出(即“分组”),并对这些输出进行相对比较来计算奖励。这种方法避免了传统 PPO 中对价值函数的依赖,从而显著减少了内存和计算资源的消耗。
  • PPO (Proximal Policy Optimization,近端策略优化):一种强化学习算法,通过限制策略更新的幅度来保持优化的稳定性。
  • 负载均衡 (Load Balance):在分布式系统中平衡计算任务,避免过度集中或资源闲置。
  • 强化学习 (Reinforcement Learning):通过奖励机制引导AI模型学习最优策略的机器学习方法。
  • 模型预测控制 (Model Predictive Control):基于对未来状态的预测来优化当前决策的方法,广泛用于自动化控制。
  • NV Link (NVIDIA Link):英伟达开发的高速芯片互联技术,支持多GPU协同工作,提升计算效率。
  • CUDA (Compute Unified Device Architecture,统一计算设备架构):英伟达推出的并行计算平台和编程模型,用于加速GPU上的计算任务。
  • PTX (Parallel Thread Execution,并行线程执行):CUDA平台底层的指令集架构,直接与GPU硬件交互。
  • CUDA Core/Tensor Core:CUDA Core 是GPU中的基础计算单元,负责执行并行计算任务;而 Tensor Core 是专门为加速深度学习中的矩阵运算和AI任务设计的计算单元,提供更高的计算效率。
  • ASIC (Application Specific Integrated Circuit,专用集成电路):为特定应用定制的集成电路,通常用于高效处理特定任务。
  • Groq:一家专注于开发AI专用芯片的美国公司,提供高效的AI计算解决方案。
  • 《The Bitter Lesson》(痛苦的教训):Rich Sutton的经典文章,提出在AI发展中,计算能力和规模比算法精巧性更为重要。
  • 世界模型 (World Model):一种能够预测动作后果的AI模型,常用于环境模拟、决策规划和强化学习中。
  • 《Genie 2》:DeepMind的研究论文,介绍了一个可以在任意2D图像中进行自由移动探索的AI模型 - 给它一张图片,AI就能变成图中的"主角",可以在画面中前后左右走动,仿佛真的进入了这个2D世界。这是一个重要的"世界模型"(World Model)的实例。
  • HPC (High Performance Computing,高性能计算):使用超级计算机集群处理复杂的计算任务,通常应用于科学计算、气候模拟等高需求场景。

【监制】
杜秀
【后期】
AMEI
【BGM】
Dusk Movers - Alexandra Woodward
City Phases STEMS INSTRUMENTS - John Abbot

【在这里找到我们】
公众号:硅谷101
收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客
海外用户:Apple Podcast|Spotify|TuneIn|YouTube|Amazon Music
联系我们:podcast@sv101.net

Special Guests: John Yue and 陈羽北.

展开Show Notes
Jojo_nikki
Jojo_nikki
2025.2.06
主持人引导提问很赞啊👍把嘉宾很多模糊表达具体化了
hahaha_zWry:听了一圈,关于ds到目前最高水平的主持人
06:54 这个嘉宾的访谈真是听着费劲😂主持人每一个回合的引导和澄清,他都不做正面回应,而是顺着自己的思路继续叙述。几个回合下来,让主持人和听众都不知道双方交流到底是不是同频的😂
烧饼_MBoY
烧饼_MBoY
2025.2.06
小白,纯直觉,感觉在硅谷的研究氛围对于国内内卷的程度还没有太清晰的感知,另一个感觉是两个嘉宾手里应该有不少的nv的股票
泓君Jane
:
持仓披露这个点不错,录制的时候忘了问,下次类似话题给大家做持仓披露
LakMtr1十里故清欢:不用直觉,肯定有的
7条回复
嘉宾说话有种“我为英伟达代言的感觉”😂
tb_911O
tb_911O
2025.2.06
13:46 “我认为也用了英伟达最好的芯片”从这个没有事实依据的假设引申的所有推论都是嘉宾的 emotional 观点
泓君Jane
:
补充一个背景信息:用了多少芯片什么芯片是Deepseek在海外讨论最热争议最大的话题,嘉宾说这句话之前我们详细讨论过两轮芯片与训练成本的问题,也是因为这里只能基于分析推论无法去证实结果,嘉宾当时也强调过是推论不是结论,所以呈现的时候剪掉了,他说这话背景是在切回我们之前的讨论
泓君Jane
:
如果大家对这个问题本身的推演感兴趣,推荐一篇SemiAnalysis的文章:https://semianalysis.com/2025/01/31/deepseek-debates/
11条回复
主持人提问很棒,嘉宾一般般哈哈
吕明
吕明
2025.2.06
主持人的提问方式和节奏非常好,这就是最棒的“推理”能力。
哄哄_mMfe
哄哄_mMfe
2025.2.11
我很好奇主持人怎么做到了解的这么深的,毕竟不是这个专业出身。怎么每次引导都那么恰到好处,能不能出一期干货,怎么去了解一个行业
泓君姐姐真的是问问题互动的小天才!
05:39 Ten percent 是一个非常高的number…… 就非得这样夹单词是吗??
HD486020d:很正常,英文看多了是会这样的,就比如现在我回老家,有些表达只能用普通话了,就变成了方言夹普通话。
HD993366q:还有,application 的possibility,明明中文发音更简单,非要用英文…
8条回复
Randonee
Randonee
2025.2.07
气泡音听着有点费耳朵
妮一
妮一
2025.2.09
主持人姐简直是答辩主席,嘉宾抽象表述终结者。
金雯
金雯
2025.2.06
唉,AI在国内最大的挑战其实不是技术的,而是审查的。在默认家长式负责到底的治理方式之下,用户都是孩子,出任何问题,都会怪罪到Ai工具上。所以,比如,你问DS医学问题,它会选择无法回答。因为怕承担相关的责任。其他敏感问题就更不用说了。
狲狲:这是基层2C端的问题,简单的关键字过滤,的确用户体验不佳,不过和这期聊的大模型没啥关系
我是小王8:两码事
5条回复
2025年2月2日,OpenAI在没有任何预告的情况下突然发布了一个信息聚合智能体,叫「Deep Research」,中文可以叫「深度调研」。Deep Research提供了调研信息的高级方法。调研有低中高之分:初级是查询网页,中级是查询多个网页并形成综合判断,高级就是一个路径“提问 + 搜索 + 判断 + 新的提问 + 新的搜索……直到自己满意”。现在AI可以给任何人提供一份关于任何领域当前科学理解的高水平报告。Deep Research 目前只提供给每月200美元的Pro用户使用,而且每月最多用100次。OpenAI 计划很快开放给每月20美元的Plus用户乃至于免费用户,只是使用次数更少。
26:59 哈哈 泓君这里应该强调一下 此“推理”非彼“推理” 前面一直在说inference 后面要说的是reasoning
泓君Jane
:
是,必要的时候还是要用英文😂
HD676371z
HD676371z
2025.2.07
39:18 这个嘉宾的话语,真是令人忍俊不禁"openAI内部其实说不定人家早就降下来了,它只是不想降微调的价格。"OpenAI大老爷到底技术落后价格降不下来,还是能降下来却黑心故意抬高价格啊。
硅谷101陈茜:嘉宾说的是不想降低retail(零售)的价格,Lex Friedman播客里说OpenAI inferencing的利润率有75%,还是有很多降价空间的,最新的o3 mini不是也降价了。
余泉:嘉宾提到一本关于学习的书 pick,是什么?
6条回复
eric_9X8k
eric_9X8k
2025.2.06
溢价变低就是壁垒变低的结果。壁垒丝毫没变,而溢价变低了,一定是英伟达更善了
eric_9X8k:22:19 嘉宾的这段表达反复在承认结果而坚决否认原因,相当于一边承认一边否认
听过几乎所有稍微专业点儿的嘉宾 好像都一致认为deepseek的低成本对Nvidia没啥坏影响 不过目前资本市场还没这么有信心。走着看吧 看Nvidia年内能不能回前高 但我没那么大把握 六七成吧
李晨-煊安:有个比喻是说open AI他们训练的大模型都是渔夫在大海里钓鱼,把鱼装在鱼篓里,鱼篓就是大模型,而 deep seek 是去鱼篓里钓鱼,也就是它是通过蒸馏的方式,所以才低成本训练了他的大模型,的确那个大模型性能也不错。但如此的话,美国的AI公司就不担心了,不是算力算法的问题,而是超了金路,“聪明”而已。
冷酷异境与世界尽头:本来的事
4条回复
blmlee
blmlee
2025.2.07
不愧是硅谷101,Jane的提问、引导及追问比嘉宾的观点更精彩!
诗多芬宛
诗多芬宛
2025.2.08
两个嘉宾比较习惯美国角度叙事,期待博主找一些中国的ai创始人