【本期内容】
当 Agent 真正进入真实任务之中,它如何通过后训练、反馈和持续学习,变得越来越会行动、会交互、会解决问题?本期节目,我们邀请到 Mind Lab(Macaron AI)Founder Andrew。最近,Mind Lab 成功实现了万亿参数规模的 LoRA 强化学习,并构建了世界上第一个在万亿参数规模下支持 DSA 和 MTP 的 LoRA RL infra,甚至训练了自己的 Agent Model。
在大模型这座珠穆朗玛峰面前,如果说用资本、算力和预训练去追求极限智能,是资源极其丰富的南坡,那么 Mind Lab 选择在北坡攀登:从真实场景出发,让 Agent 在 Agent Harness、用户交互和真实反馈中获得行动能力,并通过持续学习不断演进。
在探索大模型能力上限的同时,Andrew 更关心的是,如何让 AI 从会聊天的模型,变成真正能进入任务、调用工具、生成交互并持续改进的 Agent Model。不同于过去我们理解的模型公司,Mind Lab 也走向了另一条路:从真实场景出发,把产品里的 Agent 轨迹、交互反馈和后训练经验重新写回模型。
在他的身上,我们也能看到研究者身上最纯粹的狂想,以及工程派面对真实问题时的浪漫信念。
足够前沿,也非常务实的一期访谈,欢迎收听🎧
【嘉宾】
张鹏|极客公园创始人 & 总裁
Andrew|Mind Lab (Macaron AI) Founder
【精彩时刻】
Mind Lab 最近在做什么?
小龙虾之后,Agent 生态发生了哪些变化?
拆解 AI 的记忆系统:为什么一个早期很懂你的 Agent,越来越难用?
记忆(Memory)如何让 Agent 个性化服务变得更好
解读 MindClaw 的底层架构:为每个人、每个 Agent 训练自己的模型
LoRA 强化学习的关键突破:用更低成本,让万亿参数模型持续进化
Research Pipeline: Mind Lab 的模型研究路线与算法创新
为什么后训练和 Agent 训练越来越重要
Mind Lab 想成为什么样的模型公司
从真实问题出发设计产品,在用户反馈中持续优化模型
从「北坡」登顶珠峰,非典型模型公司的拯救派生长路径
【名词释义】
File system based memory:是一种让 AI Agent 将长期信息保存为文件和目录的持久化记忆机制。在这种机制中,模型不会只依赖当前的对话上下文,而是可以把重要信息、任务进展、用户偏好、项目规则、历史结论等写入本地或远程文件系统,并在后续任务中按需读取、更新和引用这些文件。
LoRA (Low-Rank Adaptation)低秩适应:LoRA 可以理解为挂在大模型旁边的一组「小型适配器」。它不需要重新训练整个大模型,也不会改动大模型原本的全部参数,而是用一小组低秩矩阵,学习模型在某个任务、风格或用户偏好上需要发生的关键变化。
RL(Reinforcement Learning)强化学习:即一类机器学习法,让模型通过反馈和奖励机制学会更好决策的训练方法。
LoRA RL:本期提到的 LoRA RL,指的是用 LoRA 这种高效参数更新方式来做强化学习训练,让大模型在较低成本下学习新的行为模式、Agent 能力或用户偏好。
Long-term memory 长期记忆:是 AI Agent 或大模型应用用于跨会话、跨任务保存和调用信息的持久化记忆能力。它使系统能够在当前上下文窗口之外保存用户偏好、历史任务、项目状态、经验规则和已学习事实,并在后续交互中按需检索和使用这些信息,从而提供更连续、更个性化、更稳定的服务。
Continue Learning 持续学习:是一种让 AI 模型在不断到来的新数据、新任务或新环境中持续更新能力,同时尽量保留已有知识的机器学习范式。
Personal AGI:是一种以个人用户为中心的通用智能体系统,能够在长期记忆、个人上下文、工具调用、任务规划和自主执行能力的支持下,持续理解用户目标,并在工作、学习、生活和创造等多个领域,并为用户提供通用智能服务。
【相关内容索引】
一个会持续学习的先进 Agent 模型,到底该怎么构建?👉《独家丨美团领投 A 轮, Mindverse 总融资 5000 万美元,打造持续学习的 Agent 模型》
【听友群💬】
如果你喜欢我们的节目,欢迎保存下方二维码,微信扫码加入听友群和主播互动、交流节目听后感受和选题、认识同频小伙伴~(ps:二维码不过期哦✌️)

【关于节目】
「开始连接 LinkStart」是一档由极客公园出品的科技商业播客。在这里,我们会邀请各行各业的嘉宾一起跨界对话、碰撞思想,用科技、商业和人文的视角一起描摹这个时代。
欢迎同步关注「公众号/视频号-极客公园」,第一时间,带你追踪科技热点。
本期编辑:ioki
剪辑:糕糕
运营:ioki
监制:靖宇、xuxu
公众号/视频号:极客公园


