记忆张量熊飞宇:给龙虾造大脑,从第一性原理重建AI记忆层

记忆张量熊飞宇:给龙虾造大脑,从第一性原理重建AI记忆层

145分钟 ·
播放数40
·
评论数0

【本期嘉宾】熊飞宇,记忆张量 创始人兼CEO

主播:郎瀚威(Will),硅谷AI顾问

💡【节目介绍】

大家好,欢迎来到 AI Watch。

AI Watch 是由硅谷AI顾问郎瀚威(Will)主理的播客,聚焦全球AI产业动态、产品增长与创业策略。Will 运营12人AI研究团队,监控全球1万+AI公司,为多家中美AI创业公司和VC提供咨询服务。

本期对话记忆张量创始人熊飞宇,他做的事情是给龙虾造大脑——也是 Will 口中见过的最坦诚的创业者之一:一边在做记忆系统,一边直说这只是必经之路,不是终点。

龙虾(Claude MCP Agent)爆发以来,TOKEN消耗暴增成了最普遍的痛点。根本原因不在模型不够聪明,而在没有记忆——昨天试过的路今天还走,没执行成功的动作反复重试,每次都像第一天上班。执行10轮就烧10倍TOKEN,上下文一路硬塞,成本指数级滚大。企业级多龙虾场景还面临另一重危机:多个Agent各自为政,记忆孤岛,虾越多信息越乱,效率反而越低。

熊飞宇的公司记忆张量,2024年11月成立即获近亿元天使轮。核心产品 Memos 是独立记忆层中间件,覆盖本地插件(开源)、云服务 API、企业平台 Cloudforce 三套方案。实测数据:接入后单次任务 INPUT TOKEN 减少30%以上,总 TOKEN 消耗降低约49%,情感陪伴场景 AB 测试对话轮数提升16%。客户覆盖游戏厂商、智能家居、情感陪伴、学术科研等多个高并发场景。但熊飞宇坦言,Memos 不是终点——公司本质是在做认知能力的第一性原理建模,自己训基模,首席科学家杨泓康是普林斯顿应用数学两年半毕业的博士,已发表一篇110页论文,尝试从数学底层为"为什么需要记忆、为什么需要思考"建模。

本期聊了:龙虾为什么必然烧死TOKEN、记忆系统的五条核心链路、企业多龙虾协同的三大挑战、本地插件与云服务的适用边界、Benchmark与真实业务之间的gap,以及基模未来会不会吃掉记忆层这个直击灵魂的问题。Enjoy!

🔥【核心金句】

熊飞宇:"没有记忆的龙虾,就像一个每天都会部分失忆的实习生,你也不能说他不努力,但你很难让他稳定的创造价值。"

熊飞宇:"我们不是站在基模外面猜基模会做什么,我们自己就在训基模。很多讲这句话的人,你先去看看他有没有用过千卡以上的集群,真正训过模型。"

熊飞宇:"鸟启发了飞行,但鸟不是飞行的原理。人脑启发了智能,但人脑也未必就是智能的本身。"

熊飞宇:"我们走到 Memos 不是因为我们不相信基模,而是因为我们太相信基模。也正因为我们在训基模,我们才知道基模今天的边界在哪里。"

熊飞宇:"很多人其实是在猜未来,我们是边做边在校准未来。"

熊飞宇:"AGI 不会像礼物一样突然掉下来,它一定是有人去啃那些最难、最底层、最不性感的问题,一步一步把路修出来。"

💡【核心观点】

龙虾的记忆问题是"生死问题",不是"优化问题"。连续性Agent不像聊天AI可以糊过去,一旦跨轮、跨任务、跨session工作,没有记忆就会反复返工、上下文硬塞,TOKEN消耗呈指数级增长。接入 Memos 后总 TOKEN 消耗可降低约49%。

上下文窗口再长,有效范围也只有6~8万TOKEN。模型性能和成本会随上下文超过10万后指数级下降,这不是靠"等基模进化"能短期解决的结构性限制,因此独立记忆层有其存在的必要性。

企业多龙虾的核心是三件事:记忆隔离(防止A员工的虾看到B员工的数据)、记忆协同(共享的是提炼后的skill,而不是原始历史裸奔)、状态准确(记忆要有版本、可回滚、可溯源)。不解决这三件事,虾越多信息越乱。

记忆的高需求场景有共性:信息量大、状态持续变化、要求低延迟。游戏NPC(人设不能崩)、情感陪伴(用户每月聊几十万字、记错就煞风景)、智能家居(家庭画像动态更新)、安防(识别异常行为需先建立正常画像)、学术科研(研究脉络不能成黑箱)均是典型场景。游戏辅助工具甚至要求记忆在300毫秒内完成入库和出库。

记忆层不会被基模完全吃掉,两者是互补关系。有些记忆能力未来会原生进入基模,但多用户、多任务、多Agent协同的权限治理和状态管理,即使基模再强也仍需独立系统层承接。这个判断来自团队亲自训基模的一手经验,而非猜测。

Vibe Coding时代,团队分化正在加剧。最能适应的不是写代码最熟练的人,而是有热情主动思考、且在代码之外有产品或商务专业能力的人。售前方案架构师做POC的结果,现在已经开始碾压纯开发同学。

📊【数据支持】

单次任务 INPUT TOKEN 减少:30%以上

总 TOKEN 消耗降低:约49%

情感陪伴场景AB测试:对话轮数提升16%,TOKEN消耗再优化10%~20%

有效上下文窗口:6~8万TOKEN(超过10万后性能和成本指数级下降)

商业化订单:数十个付费客户在跑,覆盖游戏、情感陪伴、智能家居、学术科研等场景

融资:2024年11月成立,近亿元天使轮

对 Memos 感兴趣的朋友,可以在 GitHub 搜索 Memos(代码全部开源,NPM 三步安装),或关注记忆张量公众号获取安装教程。企业级 Cloudforce 方案请联系记忆张量商务团队。

时间轴:

00:29 龙虾为什么会"烧死"?记忆缺失如何让TOKEN消耗指数级增长?

02:13 连续性Agent与聊天AI的本质差异:为什么龙虾把记忆变成了生死问题?

06:19 100万上下文窗口为什么还是不够用?有效上下文的真实边界在哪里?

10:37 现场演示:本地记忆插件如何接入龙虾、管理多Agent记忆?

19:02 三套产品线的定位:开源本地插件、云服务API、Cloudforce企业平台各解决什么问题?

35:10 Vibe Coding时代,团队里谁最能适应?产品、商务为什么开始碾压纯码农?

42:40 哪些行业对记忆需求最刚需?游戏NPC、情感陪伴、智能家居、学术科研逐一拆解

50:13 企业多龙虾协同的三大核心:记忆隔离、记忆协同、状态准确——为什么虾越多越可能越乱?

56:03 什么样的公司适合用"重方案"?轻插件和企业系统的适用边界在哪里?

01:05:49 直面横评:Benchmark高分等于实际体验好吗?LocaMo数据集的局限是什么?

01:12:08 基模会不会两年内吃掉记忆层?自己训基模的人怎么看这个问题?

01:17:45 认知能力的第一性原理建模是什么意思?"鸟启发了飞行,但鸟不是飞行的原理"

01:47:36 现场演示 Cloudforce:情报龙虾、研判龙虾、总管龙虾如何协同分工?

01:58:10 Cloudforce 是怎么来的?为什么说这个产品跟 Will 有"莫大关系"?

02:21:12 收尾:Memos 不是终点,我们在追的是一条路,不是一个风口

🎙️【本期嘉宾】

熊飞宇,记忆张量创始人兼CEO。前阿里巴巴业务中台数据智能负责人,深厚的企业级大规模系统背景。2024年11月创立记忆张量,获近亿元天使轮,核心团队成员多为博士,首席科学家杨泓康为普林斯顿应用数学博士(两年半完成学业),已发布110页论文尝试从第一性原理为记忆和慢思考建立数学模型。本期核心观点:记忆不是龙虾的优化项而是生死问题;基模做不到的事今天要用工程接住,但判断哪些能做到、哪些做不到,需要自己真正训过基模才有底气说。

🎙️【关于主播】

郎瀚威(Will),硅谷AI顾问。运营12人AI研究团队(11人在中国,1人在硅谷,伯克利毕业),监控全球1万+ AI公司。为8-10家中美AI创业公司和VC提供每周咨询服务(天际资本、IOSG Ventures等)。Twitter 18万粉丝。

🔗【联系方式】

推特:@financeyf5

小红书 / 视频号 / 公众号:郎瀚威 Will