20. DeepSeekV4 1M模型来了——AI算法工程师讲透模型上下文限制用AI搞学术

20. DeepSeekV4 1M模型来了——AI算法工程师讲透模型上下文限制

40分钟 ·
播放数133
·
评论数0

📜背景

本期我们从DeepSeek V4 的发布聊起——这是国产模型中第一个拥有1M上下文的。这背后人们常说的大模型的上下文限制到底是怎么回事?AI算法工程师从四个层面拆解了原因:显存物理约束、长文本训练数据稀缺、注意力稀释,以及Transformer架构的平方级计算量。

我们还对比了 DeepSeek 和 Kimi 各自突破上下文的技术路线,以及为什么进入 Agent 时代后“后训练”和“记忆系统”成了最关键的战场。如果你用AI 改论文时总困惑为什么模型记不住前面的内容,这期从底层给你讲明白。

时间轴

00:00  DeepSeekV4速览:1M上下文+极致性价比,Fresh版只有Opus的1%价格

08:26  上下文为什么难突破?四大原因深度拆解

23:42  大海捞针测试:文本越长,AI注意力越稀释

26:30  DeepSeek vs Kimi:两家突破1M的不同技术路线

36:02  记忆才是真正瓶颈:从爱马仕Hermes到龙虾记忆到Claude做梦系统

🧍‍♂️联系我们

微信听友群:加13826477686微信进群(加微信时辛苦备注“AI搞学术”或“小宇宙”)

听众反馈:514634244@qq.com