111: Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端|Agent#3晚点聊 LateTalk

111: Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端|Agent#3

95分钟 ·
播放数10937
·
评论数46

「长期看,LLM 是 Agent 和人类之间交互的前端,后端则靠 RL 模型完成工作。」

几乎所有主流 AI Agent 产品,都把大语言模型(LLM),或者它的多模态升级版当作“大脑”,靠一个或几个 LLM 编排工作、调用工具。

但也有不同的路。这期节目的嘉宾,Pokee.ai 的创始人朱哲清(Bill),认为 LLM 只是 Agent 理解人类需求、向人类递交产出的“前端”,后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。

Bill 提到,把 LLM 当作大脑时,Agent 调用工具的能力有限。这是因为 LLM 使用工具时,需要先把工具描述、输入、输出等相关信息传入上下文,而 LLM 支持的上下文长度有限。把 Agent 的决策中枢换成另一个强化学习模型可以解决这个问题。

本期节目中,Bill 还聊到优秀的通用 Agent 需要具备四个要素:实现任务比人快、无需人工干预、能读取信息也能写入信息、成本低。Agent 产品的壁垒不在技术,而在于和用户的工作流深度绑定。

此外,我们还和 Bill 聊了他对通用 Agent 接下来竞争态势的判断,以及他在强化学习还并没有成为显学时,便相信强化学习潜力的原因。

Bill 本科开始便在海外留学,不熟悉、常用一些专业术语的中文表达。节目中高频提及的英文术语,可参考 Shownotes 文末附录。

本期嘉宾:
Pokee.ai 创始人,前 Meta 应用强化学习负责人、工程经理朱哲清

时间线:
-创业前,花近十年研究、落地强化学习算法
04:02 一边在斯坦福读博士,一边在 Meta 上班,每周工作 110 个小时
07:20 拒绝 LLM 创业机会,留在强化学习主航道上
10:17 刚开始研究强化学习的时候,强化学习还并不是显学
16:52 DeepSeek R1 带火了强化学习,让投资人意识到强化学习重要性

-强化学习做 Agent 的优势
19:26 现有 LLM 写入能力较弱,调用工具数量有限
23:51 长期看,LLM 可能只是模型和用户的交互层,Agent 之间沟通不一定用语言

-如何设计一款 Agent 产品,服务专业用户
31:02 保留用户控制节点,避免“自由落体”的失控感
36:36 Pokee.ai 想服务专业用户,未来还要进入企业工作流
43:46 一项子任务失败,不一定挡住 Pokee.ai 完成其他子任务
45:33 抛开 browser-use,强化学习 Agent 完成一项任务只需要数十秒
46:53 Pokee.ai 最初没用 MCP,团队自己设计更简单的协议
48:47 目前主流做 Agent 的方法还是以 LLM 为核心
50:00 优秀 Agent 的四要素:速度快、无需干预、能读能写、成本低

-创业故事:从垂直 Agent 回归通用 Agent
58:20 Pokee.ai 团队全职员工只有四人,成员主要来自 Meta
59:30 早期产品:旅行规划助手 / Shopify 助手
01:02:07 强化学习爆火后,回归创业初衷做通用 Agent
01:07:33 Manus 出圈是意料之内
01:09:54 Pokee.ai 发布产品不会用邀请码,单次任务成本是同类产品的 1/10
01:10:59 技术不是 Agent 的护城河,重要的是和用户工作流绑定
01:20:24 Pokee.ai 在做通用 Agent,但也能帮垂直 Agent 落地
01:22:15 Agent 行业最后会存留三到五家公司,接下来是各个通用 Agent 差异化的时候
01:26:03 判断技术潜力的好方法:Toy Example(玩具案例)

附录:
RL(Reinforcement Learning):强化学习;
policy:策略,强化学习语境下指模型完成任务的方式;
exploration:探索,强化学习语境下指探索可能完成任务的新路径;
exploitation:利用,强化学习语境下指利用已知信息,选择最优的动作,和 exploration 相对;
reward model:奖励模型,是强化学习算法的一部分,用于评价某个动作的好坏;
ground truth:真值,指训练强化学习模型时使用的标准答案;
prosumer(professional consumer):专业用户,本期节目语境下指用 Agent 产品完成工作需求的用户;
context length:大模型的上下文长度;
browser-use:使 AI 能够像人类一样浏览、操作网页的开源工具;
Monte-Carlo Tree Search:一种基于随机模拟的搜索算法,用于在决策过程中评估不同选择的潜在结果,常用于需要策略规划的情境中;
API:应用程序编程接口,是一组允许不同软件系统之间通信、交换数据的规则;
SDK:软件开发工具包,旨在帮助开发者为特定平台或系统构建应用程序。

剪辑制作:甜食

本期主播:
孙海宁(微信 @_HaydenSun)
程曼祺 小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q


☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

展开Show Notes
置顶
主流 AI Agent 产品主要把(多模态)大语言模型(LLM)当“大脑”,靠一个或几个 LLM 编排工作、调用工具。

但Pokee.ai 创始人朱哲清(Bill),认为 LLM 只是 Agent 理解人类需求、向人类递交产出的“前端”,后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。

这期我们和 Bill 聊了他不一样的 Agent 造法。准确说,Pokee产品也不是直接to使用者的 Agent,而是to D 的造 Agent 的工具。

Bill 也分享了他过去十几年,从在斯坦福读博和Meta期间的 RL 研发故事,他是怎么度过“冷板凳”阶段的,为什么没转去 LLM。

本周,这个在北美的4人小团队的产品即将发布。到时可以看 RL 做 Agent 的初期效果。(有产品信息后,我们会更新在评论区~
HD538964z:有文字稿吗,在哪里看?
xstarcity:这一期的思路非常有启发,我们之前也一直用大模型,同时负责工具调用和回答用户问题交流。也有反思过,这种架构是不是未来,是不是统一的方案?虽然很方便。 我猜他们应该训练了一个专用模型,非通用的,非大语言的,就只做function calling的模型
5条回复
ZikY_E5em
ZikY_E5em
2025.4.27
这期的中英混掺更是顶级…(学术名词用英文能理解,日常口头禅也全是
曼祺_MatchQ
:
录完时我就和 Bill 说,发出来会有听友不适应这个点😅因为他本科就去美国了,工作也一直在那边,确实中英混杂有点多。请见谅
abcdk:看到这个嘉宾来历已经能想到会是这样了,不出所料
cmw_swQi
cmw_swQi
2025.4.24
36:36 你这个说法我熟,以前自动驾驶也说,如果路上都是自动驾驶车,会如何如何,但是实际上无论是机器人还是车,拟人是后来发生的事情,因为车,工具都是为人设计,同时,技术的渐进性就导致了这样的情况
曼祺_MatchQ
:
谢谢分享,有意思的类比
36:34 browser use太慢了。未来没有访问互联网的需求,只有构建高质量数据库的需求。任务由agent在后端完成,所有供人类消费的前端ui都即时渲染出来。
一直没搞懂到底agent应用场景是啥,每家列举的都是安排会议 做个研究报告
哄哄_IOuG
哄哄_IOuG
2025.4.26
1:07:57 哈哈这演都不演了
耳朵折了
耳朵折了
2025.4.25
对于GUI界面,个人认为会在未来的时间仍是不可替代的一部分,现在很多一些工作为了降低成本以及门槛,作为commercial的一部分,确实也都包装成为了GUI产品去销售。如果说,能够完全替代GUI, 在agent方面技术层面上确实未来可期,但仍然需要接受市场的挑战
cmw_swQi
cmw_swQi
2025.4.24
22:49 我们的实验128个工具单个调用,没什么问题,幻觉还好,但是多步确实成功率会下降很多
大语言模型用于理解内容和调用工具,或许确实有点杀鸡用牛刀,为了让人类能理解而放弃了效率了
旭坤
旭坤
2025.4.23
1. api doc导致的context长度问题,是可以finetune到模型的0-shot来解决的,有个gorilla 工作。2.llm可以进行rl,端到端来解决翻译层和决策层,分开的意义只是提速?
曼祺_MatchQ
:
第 2 个问题,可能确实是一个效率和效果的取舍和平衡问题,包括成本。成本对产品挺重要。
曼祺_MatchQ
:
从生成式模型到自动驾驶、机器人,端到端都被认为很好,是为什么呢?是因为可以全局优化吗?这个话题我想找个时间搞清楚。 至少在自动驾驶和机器人领域,我觉得技术人员间对端到端有分歧,分歧还不小。
靓宇Jingyu
靓宇Jingyu
2025.4.23
第三个叫什么
孙不浪:请问这是指什么呀?
曼祺_MatchQ
:
孙不浪(海宁)是这期的主播~ “第三个”是指哪个时间段前后提到的
桃奈小安
桃奈小安
2025.4.23
沙发
xstarcity
xstarcity
2025.11.22
反对 brower use,认为这不是未来,是个中间过渡,又慢准确率还低——这点我但是非常赞同,现在貌似很多人都不看好 agent去适配现有人类互联网基础设施。

不过这个方向发展下去,可能我们小孩一代的生活图景:手机中不再是几百个APP。 就像我们父辈很难想象我们现在通过几百个手机APP可以调度消费各种社会服务资源
xstarcity
xstarcity
2025.11.22
43:14 这里提到的其实是工作流优化问题,和大公司的工作流是不是固定,貌似不在一个维度?

听起来是两个方向:一个是临时生成工作流的动态能力;另外一个是优化大公司现有工作流,比如把它变得更短更高效;
xstarcity
xstarcity
2025.11.22
29:30 这里提到了大语言模型的各种问题,好奇非LM作为规划决策的核心,那这又是什么模型…
Elfsong
Elfsong
2025.8.26
纯纯伪需求 这种宣传是为了给自己抹黑嘛?
阿诺德
阿诺德
2025.6.03
27:14 感觉能成。LLM工具调用借助文字,幻觉太强。RL微调LLM探索空间太大,成本高,效果也不好,不适合做后端。关键在于如何定义可行的状态空间、动作空间。
四月愚人
四月愚人
2025.5.24
怎么联系创始人
听完了一期之后发现产品体验和测试不了🥹🤣
stargazering
stargazering
2025.5.15
pokee.ai如何获得邀请码呢?