📜背景
本期我们从DeepSeek V4 的发布聊起——这是国产模型中第一个拥有1M上下文的。这背后人们常说的大模型的上下文限制到底是怎么回事?AI算法工程师从四个层面拆解了原因:显存物理约束、长文本训练数据稀缺、注意力稀释,以及Transformer架构的平方级计算量。
我们还对比了 DeepSeek 和 Kimi 各自突破上下文的技术路线,以及为什么进入 Agent 时代后“后训练”和“记忆系统”成了最关键的战场。如果你用AI 改论文时总困惑为什么模型记不住前面的内容,这期从底层给你讲明白。
⏳ 时间轴
00:00 DeepSeekV4速览:1M上下文+极致性价比,Fresh版只有Opus的1%价格
08:26 上下文为什么难突破?四大原因深度拆解
23:42 大海捞针测试:文本越长,AI注意力越稀释
26:30 DeepSeek vs Kimi:两家突破1M的不同技术路线
36:02 记忆才是真正瓶颈:从爱马仕Hermes到龙虾记忆到Claude做梦系统
🧍♂️联系我们
微信听友群:加13826477686微信进群(加微信时辛苦备注“AI搞学术”或“小宇宙”)
听众反馈:514634244@qq.com

