记忆张量熊飞宇：给龙虾造大脑，从第一性原理重建AI记忆层

【本期嘉宾】熊飞宇，记忆张量创始人兼CEO

主播：郎瀚威（Will），硅谷AI顾问

💡【节目介绍】

大家好，欢迎来到 AI Watch。

AI Watch 是由硅谷AI顾问郎瀚威（Will）主理的播客，聚焦全球AI产业动态、产品增长与创业策略。Will 运营12人AI研究团队，监控全球1万+AI公司，为多家中美AI创业公司和VC提供咨询服务。

本期对话记忆张量创始人熊飞宇，他做的事情是给龙虾造大脑——也是 Will 口中见过的最坦诚的创业者之一：一边在做记忆系统，一边直说这只是必经之路，不是终点。

龙虾（Claude MCP Agent）爆发以来，TOKEN消耗暴增成了最普遍的痛点。根本原因不在模型不够聪明，而在没有记忆——昨天试过的路今天还走，没执行成功的动作反复重试，每次都像第一天上班。执行10轮就烧10倍TOKEN，上下文一路硬塞，成本指数级滚大。企业级多龙虾场景还面临另一重危机：多个Agent各自为政，记忆孤岛，虾越多信息越乱，效率反而越低。

熊飞宇的公司记忆张量，2024年11月成立即获近亿元天使轮。核心产品 Memos 是独立记忆层中间件，覆盖本地插件（开源）、云服务 API、企业平台 Cloudforce 三套方案。实测数据：接入后单次任务 INPUT TOKEN 减少30%以上，总 TOKEN 消耗降低约49%，情感陪伴场景 AB 测试对话轮数提升16%。客户覆盖游戏厂商、智能家居、情感陪伴、学术科研等多个高并发场景。但熊飞宇坦言，Memos 不是终点——公司本质是在做认知能力的第一性原理建模，自己训基模，首席科学家杨泓康是普林斯顿应用数学两年半毕业的博士，已发表一篇110页论文，尝试从数学底层为"为什么需要记忆、为什么需要思考"建模。

本期聊了：龙虾为什么必然烧死TOKEN、记忆系统的五条核心链路、企业多龙虾协同的三大挑战、本地插件与云服务的适用边界、Benchmark与真实业务之间的gap，以及基模未来会不会吃掉记忆层这个直击灵魂的问题。Enjoy!

🔥【核心金句】

熊飞宇："没有记忆的龙虾，就像一个每天都会部分失忆的实习生，你也不能说他不努力，但你很难让他稳定的创造价值。"

熊飞宇："我们不是站在基模外面猜基模会做什么，我们自己就在训基模。很多讲这句话的人，你先去看看他有没有用过千卡以上的集群，真正训过模型。"

熊飞宇："鸟启发了飞行，但鸟不是飞行的原理。人脑启发了智能，但人脑也未必就是智能的本身。"

熊飞宇："我们走到 Memos 不是因为我们不相信基模，而是因为我们太相信基模。也正因为我们在训基模，我们才知道基模今天的边界在哪里。"

熊飞宇："很多人其实是在猜未来，我们是边做边在校准未来。"

熊飞宇："AGI 不会像礼物一样突然掉下来，它一定是有人去啃那些最难、最底层、最不性感的问题，一步一步把路修出来。"

💡【核心观点】

龙虾的记忆问题是"生死问题"，不是"优化问题"。连续性Agent不像聊天AI可以糊过去，一旦跨轮、跨任务、跨session工作，没有记忆就会反复返工、上下文硬塞，TOKEN消耗呈指数级增长。接入 Memos 后总 TOKEN 消耗可降低约49%。

上下文窗口再长，有效范围也只有6~8万TOKEN。模型性能和成本会随上下文超过10万后指数级下降，这不是靠"等基模进化"能短期解决的结构性限制，因此独立记忆层有其存在的必要性。

企业多龙虾的核心是三件事：记忆隔离（防止A员工的虾看到B员工的数据）、记忆协同（共享的是提炼后的skill，而不是原始历史裸奔）、状态准确（记忆要有版本、可回滚、可溯源）。不解决这三件事，虾越多信息越乱。

记忆的高需求场景有共性：信息量大、状态持续变化、要求低延迟。游戏NPC（人设不能崩）、情感陪伴（用户每月聊几十万字、记错就煞风景）、智能家居（家庭画像动态更新）、安防（识别异常行为需先建立正常画像）、学术科研（研究脉络不能成黑箱）均是典型场景。游戏辅助工具甚至要求记忆在300毫秒内完成入库和出库。

记忆层不会被基模完全吃掉，两者是互补关系。有些记忆能力未来会原生进入基模，但多用户、多任务、多Agent协同的权限治理和状态管理，即使基模再强也仍需独立系统层承接。这个判断来自团队亲自训基模的一手经验，而非猜测。

Vibe Coding时代，团队分化正在加剧。最能适应的不是写代码最熟练的人，而是有热情主动思考、且在代码之外有产品或商务专业能力的人。售前方案架构师做POC的结果，现在已经开始碾压纯开发同学。

📊【数据支持】

单次任务 INPUT TOKEN 减少：30%以上

总 TOKEN 消耗降低：约49%

情感陪伴场景AB测试：对话轮数提升16%，TOKEN消耗再优化10%~20%

有效上下文窗口：6~8万TOKEN（超过10万后性能和成本指数级下降）

商业化订单：数十个付费客户在跑，覆盖游戏、情感陪伴、智能家居、学术科研等场景

融资：2024年11月成立，近亿元天使轮

对 Memos 感兴趣的朋友，可以在 GitHub 搜索 Memos（代码全部开源，NPM 三步安装），或关注记忆张量公众号获取安装教程。企业级 Cloudforce 方案请联系记忆张量商务团队。

时间轴：

00:29 龙虾为什么会"烧死"？记忆缺失如何让TOKEN消耗指数级增长？

02:13 连续性Agent与聊天AI的本质差异：为什么龙虾把记忆变成了生死问题？

06:19 100万上下文窗口为什么还是不够用？有效上下文的真实边界在哪里？

10:37 现场演示：本地记忆插件如何接入龙虾、管理多Agent记忆？

19:02 三套产品线的定位：开源本地插件、云服务API、Cloudforce企业平台各解决什么问题？

35:10 Vibe Coding时代，团队里谁最能适应？产品、商务为什么开始碾压纯码农？

42:40 哪些行业对记忆需求最刚需？游戏NPC、情感陪伴、智能家居、学术科研逐一拆解

50:13 企业多龙虾协同的三大核心：记忆隔离、记忆协同、状态准确——为什么虾越多越可能越乱？

56:03 什么样的公司适合用"重方案"？轻插件和企业系统的适用边界在哪里？

01:05:49 直面横评：Benchmark高分等于实际体验好吗？LocaMo数据集的局限是什么？

01:12:08 基模会不会两年内吃掉记忆层？自己训基模的人怎么看这个问题？

01:17:45 认知能力的第一性原理建模是什么意思？"鸟启发了飞行，但鸟不是飞行的原理"

01:47:36 现场演示 Cloudforce：情报龙虾、研判龙虾、总管龙虾如何协同分工？

01:58:10 Cloudforce 是怎么来的？为什么说这个产品跟 Will 有"莫大关系"？

02:21:12 收尾：Memos 不是终点，我们在追的是一条路，不是一个风口

🎙️【本期嘉宾】

熊飞宇，记忆张量创始人兼CEO。前阿里巴巴业务中台数据智能负责人，深厚的企业级大规模系统背景。2024年11月创立记忆张量，获近亿元天使轮，核心团队成员多为博士，首席科学家杨泓康为普林斯顿应用数学博士（两年半完成学业），已发布110页论文尝试从第一性原理为记忆和慢思考建立数学模型。本期核心观点：记忆不是龙虾的优化项而是生死问题；基模做不到的事今天要用工程接住，但判断哪些能做到、哪些做不到，需要自己真正训过基模才有底气说。

🎙️【关于主播】

郎瀚威（Will），硅谷AI顾问。运营12人AI研究团队（11人在中国，1人在硅谷，伯克利毕业），监控全球1万+ AI公司。为8-10家中美AI创业公司和VC提供每周咨询服务（天际资本、IOSG Ventures等）。Twitter 18万粉丝。

🔗【联系方式】

推特：@financeyf5

小红书 / 视频号 / 公众号：郎瀚威 Will