111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端|Agent#3

晚点聊 LateTalk

95分钟 ·10个月前

11105

「长期看，LLM 是 Agent 和人类之间交互的前端，后端则靠 RL 模型完成工作。」

几乎所有主流 AI Agent 产品，都把大语言模型（LLM），或者它的多模态升级版当作“大脑”，靠一个或几个 LLM 编排工作、调用工具。

但也有不同的路。这期节目的嘉宾，Pokee.ai 的创始人朱哲清（Bill），认为 LLM 只是 Agent 理解人类需求、向人类递交产出的“前端”，后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。

Bill 提到，把 LLM 当作大脑时，Agent 调用工具的能力有限。这是因为 LLM 使用工具时，需要先把工具描述、输入、输出等相关信息传入上下文，而 LLM 支持的上下文长度有限。把 Agent 的决策中枢换成另一个强化学习模型可以解决这个问题。

本期节目中，Bill 还聊到优秀的通用 Agent 需要具备四个要素：实现任务比人快、无需人工干预、能读取信息也能写入信息、成本低。Agent 产品的壁垒不在技术，而在于和用户的工作流深度绑定。

此外，我们还和 Bill 聊了他对通用 Agent 接下来竞争态势的判断，以及他在强化学习还并没有成为显学时，便相信强化学习潜力的原因。

Bill 本科开始便在海外留学，不熟悉、常用一些专业术语的中文表达。节目中高频提及的英文术语，可参考 Shownotes 文末附录。

本期嘉宾：
Pokee.ai 创始人，前 Meta 应用强化学习负责人、工程经理朱哲清

时间线：
-创业前，花近十年研究、落地强化学习算法
04:02 一边在斯坦福读博士，一边在 Meta 上班，每周工作 110 个小时
07:20 拒绝 LLM 创业机会，留在强化学习主航道上
10:17 刚开始研究强化学习的时候，强化学习还并不是显学
16:52 DeepSeek R1 带火了强化学习，让投资人意识到强化学习重要性

-强化学习做 Agent 的优势
19:26 现有 LLM 写入能力较弱，调用工具数量有限
23:51 长期看，LLM 可能只是模型和用户的交互层，Agent 之间沟通不一定用语言

-如何设计一款 Agent 产品，服务专业用户
31:02 保留用户控制节点，避免“自由落体”的失控感
36:36 Pokee.ai 想服务专业用户，未来还要进入企业工作流
43:46 一项子任务失败，不一定挡住 Pokee.ai 完成其他子任务
45:33 抛开 browser-use，强化学习 Agent 完成一项任务只需要数十秒
46:53 Pokee.ai 最初没用 MCP，团队自己设计更简单的协议
48:47 目前主流做 Agent 的方法还是以 LLM 为核心
50:00 优秀 Agent 的四要素：速度快、无需干预、能读能写、成本低

-创业故事：从垂直 Agent 回归通用 Agent
58:20 Pokee.ai 团队全职员工只有四人，成员主要来自 Meta
59:30 早期产品：旅行规划助手 / Shopify 助手
01:02:07 强化学习爆火后，回归创业初衷做通用 Agent
01:07:33 Manus 出圈是意料之内
01:09:54 Pokee.ai 发布产品不会用邀请码，单次任务成本是同类产品的 1/10
01:10:59 技术不是 Agent 的护城河，重要的是和用户工作流绑定
01:20:24 Pokee.ai 在做通用 Agent，但也能帮垂直 Agent 落地
01:22:15 Agent 行业最后会存留三到五家公司，接下来是各个通用 Agent 差异化的时候
01:26:03 判断技术潜力的好方法：Toy Example（玩具案例）

附录：
RL（Reinforcement Learning）：强化学习；
policy：策略，强化学习语境下指模型完成任务的方式；
exploration：探索，强化学习语境下指探索可能完成任务的新路径；
exploitation：利用，强化学习语境下指利用已知信息，选择最优的动作，和 exploration 相对；
reward model：奖励模型，是强化学习算法的一部分，用于评价某个动作的好坏；
ground truth：真值，指训练强化学习模型时使用的标准答案；
prosumer（professional consumer）：专业用户，本期节目语境下指用 Agent 产品完成工作需求的用户；
context length：大模型的上下文长度；
browser-use：使 AI 能够像人类一样浏览、操作网页的开源工具；
Monte-Carlo Tree Search：一种基于随机模拟的搜索算法，用于在决策过程中评估不同选择的潜在结果，常用于需要策略规划的情境中；
API：应用程序编程接口，是一组允许不同软件系统之间通信、交换数据的规则；
SDK：软件开发工具包，旨在帮助开发者为特定平台或系统构建应用程序。

剪辑制作：甜食

本期主播：
孙海宁（微信 @_HaydenSun）
程曼祺小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q

☆《晚点聊 LateTalk》建立「播客听友群」啦！☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

展开Show Notes

曼祺_MatchQ

2025.4.23

置顶

主流 AI Agent 产品主要把（多模态）大语言模型（LLM）当“大脑”，靠一个或几个 LLM 编排工作、调用工具。

但Pokee.ai 创始人朱哲清（Bill），认为 LLM 只是 Agent 理解人类需求、向人类递交产出的“前端”，后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。

这期我们和 Bill 聊了他不一样的 Agent 造法。准确说，Pokee产品也不是直接to使用者的 Agent，而是to D 的造 Agent 的工具。

Bill 也分享了他过去十几年，从在斯坦福读博和Meta期间的 RL 研发故事，他是怎么度过“冷板凳”阶段的，为什么没转去 LLM。

本周，这个在北美的4人小团队的产品即将发布。到时可以看 RL 做 Agent 的初期效果。（有产品信息后，我们会更新在评论区～

HD538964z:有文字稿吗，在哪里看？

xstarcity:这一期的思路非常有启发，我们之前也一直用大模型，同时负责工具调用和回答用户问题交流。也有反思过，这种架构是不是未来，是不是统一的方案？虽然很方便。我猜他们应该训练了一个专用模型，非通用的，非大语言的，就只做function calling的模型

共5条回复

ZikY_E5em

2025.4.27

这期的中英混掺更是顶级…（学术名词用英文能理解，日常口头禅也全是

曼祺_MatchQ

:录完时我就和 Bill 说，发出来会有听友不适应这个点😅因为他本科就去美国了，工作也一直在那边，确实中英混杂有点多。请见谅

abcdk:看到这个嘉宾来历已经能想到会是这样了，不出所料

cmw_swQi

2025.4.24

36:36 你这个说法我熟，以前自动驾驶也说，如果路上都是自动驾驶车，会如何如何，但是实际上无论是机器人还是车，拟人是后来发生的事情，因为车，工具都是为人设计，同时，技术的渐进性就导致了这样的情况

曼祺_MatchQ

:谢谢分享，有意思的类比

我留着陪你

2025.4.23

36:34 browser use太慢了。未来没有访问互联网的需求，只有构建高质量数据库的需求。任务由agent在后端完成，所有供人类消费的前端ui都即时渲染出来。

西瓜晒太阳

2025.5.12

一直没搞懂到底agent应用场景是啥，每家列举的都是安排会议做个研究报告

哄哄_IOuG

2025.4.26

1:07:57 哈哈这演都不演了

耳朵折了

2025.4.25

对于GUI界面，个人认为会在未来的时间仍是不可替代的一部分，现在很多一些工作为了降低成本以及门槛，作为commercial的一部分，确实也都包装成为了GUI产品去销售。如果说，能够完全替代GUI, 在agent方面技术层面上确实未来可期，但仍然需要接受市场的挑战

cmw_swQi

2025.4.24

22:49 我们的实验128个工具单个调用，没什么问题，幻觉还好，但是多步确实成功率会下降很多

我留着陪你

2025.4.23

大语言模型用于理解内容和调用工具，或许确实有点杀鸡用牛刀，为了让人类能理解而放弃了效率了

旭坤

2025.4.23

1. api doc导致的context长度问题，是可以finetune到模型的0-shot来解决的，有个gorilla 工作。2.llm可以进行rl，端到端来解决翻译层和决策层，分开的意义只是提速？

曼祺_MatchQ

:第 2 个问题，可能确实是一个效率和效果的取舍和平衡问题，包括成本。成本对产品挺重要。

曼祺_MatchQ

:从生成式模型到自动驾驶、机器人，端到端都被认为很好，是为什么呢？是因为可以全局优化吗？这个话题我想找个时间搞清楚。至少在自动驾驶和机器人领域，我觉得技术人员间对端到端有分歧，分歧还不小。

靓宇Jingyu

2025.4.23

第三个叫什么

孙不浪:请问这是指什么呀？

曼祺_MatchQ

:孙不浪（海宁）是这期的主播～ “第三个”是指哪个时间段前后提到的

桃奈小安

2025.4.23

沙发

xstarcity

2025.11.22

反对 brower use，认为这不是未来，是个中间过渡，又慢准确率还低——这点我但是非常赞同，现在貌似很多人都不看好 agent去适配现有人类互联网基础设施。

不过这个方向发展下去，可能我们小孩一代的生活图景：手机中不再是几百个APP。就像我们父辈很难想象我们现在通过几百个手机APP可以调度消费各种社会服务资源

xstarcity

2025.11.22

43:14 这里提到的其实是工作流优化问题，和大公司的工作流是不是固定，貌似不在一个维度？

听起来是两个方向：一个是临时生成工作流的动态能力；另外一个是优化大公司现有工作流，比如把它变得更短更高效；

xstarcity

2025.11.22

29:30 这里提到了大语言模型的各种问题，好奇非LM作为规划决策的核心，那这又是什么模型…