Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent|对谈 Sheet0 创始人王文锋

Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent|对谈 Sheet0 创始人王文锋

53分钟 ·
播放数23331
·
评论数80

活动预告🥳:4 月 26 日,我们会请到 sheet0.com 创始人文锋做一场线下活动,大家记得翻到 shownotes 末尾查看报名信息!

关于 Agent 这个话题,我自己有一些核心在思考的问题,相信这些也是很多人同样会有疑问的地方,这期播客中我们就这些问题展开了讨论,并基本得到了一些答案:

1)怎么定义 Agent,Agent 最重要的是什么

2)今天的 Agent 和两年前的 Agent 的区别是什么

3)如何简单快速理解 Function Call,Coding Agent,MCP,A2A,Computer Use,Browser Use 等概念

4)不同方式的区别是什么,有什么优劣之分吗

5)怎么看通用 Agent 和垂直 Agent 的区别,终局是什么

6)AI Coding 和 Agent 最终会是一件事吗,或者二者会有什么关联

7)Workflow 和 Agent 的区别和终局

8)RL 这件事在 Agent 里的重要程度是什么,一家公司(尤其是做 Agent 的创业公司)到底该如何使用 RL

9)大模型自身的 Agent 比如 OpenAI Operator 和其他应用产品的区别是什么,最终市场形态会怎样

10)如何快速判断一家 Agent 公司做得好不好

另外,在整段讨论中,本期嘉宾文锋基于长时间对 Agent 的研究和实操,还提出了很多理解和分析 Agent 的框架和关键要素,以及在接近结尾部分留下了让我非常有启发的一句话:AI Coding 是大模型的灵巧手。

人类博物馆】

导游:曲凯,42章经创始人

33 号珍藏:王文锋,Agent builder,sheet0.com Founder & CEO,连续创业者,有近十年 AI、Data Infra 产品设计和 Coding 经验。sheet0.com 已开放 waiting list 申请,即将内测。

时光机】

  • 00:47 Agent 三要素:LLM、Context、Tool Use
  • 1:17 这波 Agent 和过去两年的区别是什么?
  • 2:30 怎么理解 Agent 中的 Context?
  • 4:21 快速理解 Tool Use 的不同方案
    • 4:40 代码调用支线:Function Call、MCP、A2A 之间的区别是什么?
    • 6:35 模拟人类支线:浏览器是大模型能调用的最重要的工具
    • 7:07 两条支线各有优缺点,也可以混合起来
    • 10:27 Manus、Devin、Genspark 各用的什么方案?
    • 12:25 Browser Use 的核心价值是给用户提供「安全感」
  • 14:19 AI Coding 和 Agent 最终会殊途同归吗?
  • 16:15 Agent 的终局会走向通用还是垂直?
  • 17:17 脱离了 RL,Agent 就不成立了
    • 19:15 所以 Agent 创业公司该如何使用 RL?
  • 22:54 一个非共识理解:聊天框 + 场景推荐 UI 界面就是最好的交互形态
  • 31:54 Sheet0 是一个怎样的 Agent 产品?
    • 34:15 怎么把任务执行的准确率做到了 100%?
  • 35:39 Workflow 会被 Agent 颠覆掉吗?
  • 36:49 不同 Agent 的核心区别是什么?
  • 39:05 AI Coding 是大模型的「灵巧手」
  • 41:41 Agent 有两大「信任」命题
  • 44:22 分享一个预测 Agent 未来发展的思考框架
  • 47:33 如何快速判断一家 Agent 公司做得好不好?

【Reference】

文锋推荐大家都读一读强化学习之父 Richard Sutton 的《Reinforcement Learning:An Introduction》

【活动预告🥳】

4 月 26 日,我们会请到文锋做一场线下活动,感兴趣的朋友欢迎点击链接或扫描下面的二维码,一起来认识&交流!

The gang that made this happen】

  • 制作人:陈皮、Celia
  • 剪辑:陈皮
  • Bgm:Mondo Bongo - Joe Strummer & The Mescaleros
展开Show Notes
曲凯
曲凯
2025.4.19
置顶
sheet0.com 已开放 waiting list 申请,即将内测,产品很有趣!另外下周六有一场嘉宾的线下活动,可在 shownotes 海报中扫码报名
HD268866u:没去上现场,有视频回放可以看吗,还是转成删减版(无ppt)播客呢~拜托拜托,你们周六线下聊的题目特别需要呢~之后这种agent落地入门的北京线下活动期待多搞!
Circmuggle
Circmuggle
2025.4.20
Agent被定义为一个“基于环境反馈进行决策和行动的程序”。它的基本组成包括三个核心要素:第一是模型(Model),它是Agent运行的基础逻辑系统;第二是环境反馈(Feedback),即外部信息的变化对其行为的影响;第三是工具使用(Tool Use),Agent通过工具与外界交互以完成目标。这三个维度共同构成Agent运行的核心机制。
Context是agent做出高质量决策的前提。它不仅包括用户输入、历史对话记录,还包括模型访问过的网页、读取的代码、点击记录等一切状态信息。用户在打开某个App的瞬间(如打开美团即暗示“点外卖”意图)就隐含了大量context,Agent需要能敏锐捕捉这些信号。真正高质量的数据不仅包括输入与结果,还包括“从输入到结果之间”的中间过程。例如点击流、交互记录、实时环境数据等。Google拥有完整的用户行为序列数据,这正是其在AI Native时代最具竞争力的优势。Context是Agent内部对“当前环境”的建模基础。Agent依赖上下文来理解用户意图、保持状态一致性并形成连续性的行动链。

Agent的底层逻辑源自强化学习,其三要素为:状态(State)、行动(Action)、激励信号(Reward)。其中:状态即Context,描述Agent所处的环境信息;行动即工具调用;激励信号则是Agent用于评估行为好坏的标准。要真正设计好Agent,必须构造出“一个可以反馈的环境”,让Agent的行为有明确收敛目标。创业公司设计Agent时,关键在于:(1)将产品本身设计成“环境”,让模型理解输入、输出与行为反馈;(2)明确界定“好行为”与“坏行为”,定义奖励机制;(3)允许用户参与Agent的行为澄清与反馈过程,提高可解释性与交互灵活度。Agent面临双重信任挑战: 1)开发者需信任大模型的泛化能力,否则容易人为“封闭”模型能力,降低Agent的智能利用率; 2)用户需信任Agent的行为过程与结果,这就要求系统设计中加入可解释性机制、逐步反馈系统。
Agent系统构建的两个核心变量:(1)Context的构建:工程实现上复杂度高,常需半年以上的积累;(2)LLM性能:未来以GPT-5为代表的大模型能力提升,以及推理成本(token消耗)的下降,将显著影响Agent可用性与普及速度。要构建可持续演进的Agent,必须明确什么样的行为是“好”的(应被鼓励),什么是“差”的(应被纠正)。这类激励机制不应仅依赖模型本身,而需产品系统提供明确的行为评估信号,从而引导Agent优化自身决策。
wenfengwang:总结的太棒了!是AI总结还是人工总结的呀?
涛_r6YE:牛牛牛
5条回复
听了几遍也没听清说的书名
陈皮皮屁:shownote 里有写,强化学习之父 Richard Sutton 的《Reinforcement Learning:An Introduction》
Leo_i2gD:我也是来找书的
4条回复
Joes东
Joes东
2025.4.20
这哥们的产品感觉更实用一些 没有花里胡哨的东西 也不担心被模型即产品替代
曲凯
:
对,我也觉得。主打一个solid
这期好棒
陈皮皮屁:🥳🥳🥳
JASting
JASting
2025.4.19
00:55 agent是模型基于环境反馈使用tool的程序。
孟欣_dahR
孟欣_dahR
2025.4.23
32:14 非常实用的分享,放弃对模型的幻想,凭空想象出你要的实现,尽量用工具完成重复且确定的任务
阿豪_5jmD
阿豪_5jmD
2025.4.22
文峰、文峰,我以为是梁文峰
JASting
JASting
2025.4.22
36:14 workflow和agent区别:前者人驱动,后者ai驱动,准召平衡。
teyiyan:workflow 里也可以加入 LLM 让 LLM 判断吧
啊猴啊
啊猴啊
2025.4.19
13:17 可视化是人机交互建立初始信任感的有效途径。
Sanguis
Sanguis
2025.4.19
这期讲的非常棒!曲老师的问题真的非常好,嘉宾回答的干货很足,尤其是文峰讲的怎么保证100%生成准确率的方法,真的醍醐灌顶!作为一个也想开发agent的初学者学到了很多
陈皮皮屁:哦耶!也欢迎报名 4.26 的线下活动,面对面和文锋继续交流呀🤓
西瓜晒太阳:请问怎么保证准确率?好像没太听明白
7条回复
Novac42
Novac42
2025.4.27
很棒的一期,设计好一个让Agent可以接收反馈的环境那部分非常有洞见。不过有点惊讶嘉宾不认可A2A,我觉得A2A和MCP相当互补,如果没有A2A,只用MCP做任务编排会非常繁琐,要写很多胶水代码把一个本来是用于取context的server包装成处理任务的server,对授权的处理也很不安全。A2A在这一层做了必要抽象,让MCP server开发者不必自己造轮子了
wenfengwang:从一个工程师的视角来说,这些属于短期问题,不是长期问题。MCP是开源的,如果觉得哪里不好,大家一起去提交新的议案优化迭代MCP就好了,而不是重新起个新灶;此外,取ctx和处理task的任务,从抽象的角度来说,没有任何区别。对于处理task的而言,任然需要封装很多内部接口,才能对外提供服务,工作量并没有变少。
Novac42:开源协议也是有自己的定位和边界的,协议的scope并不会因为开源而无限扩展。MCP的设计原语如果想扩展到Agent之间的通信,需要做大改动,就算是硬改,本质上也是引入了另一个协议了。A2A这样的协议当然不一定用Google这套标准,但是,MCP做好底层取数,A2A或者其他类似定位的协议来做上层编排,这样的分工是必要的,而分工不断细化是产业越来越成熟的表现。
3条回复
AI瑞哥那
AI瑞哥那
2025.4.21
24:46 完全不认可,没有准确度就没有使用场景。你可以极致自由,但只要Agent他的主定位是解决问题,那准确不然排在自由度之前。这又不是一个娱乐产品
wenfengwang:是交互的自由度,不是结果的自由度。后面几分钟有讲如何不依赖用户提高交互准确度。
AI瑞哥那:*必然
哄哄_IOuG
哄哄_IOuG
2025.4.21
听下来很有启发,重点在于 context 和 llm 结合,当中通过工程手段来确保reward 清晰,其实又回到之前吴老师那期pretrain + decision 那期,两期结合起来听更有收获。 好奇 RL 的policy 是怎么实现的,不过播客里面讲action space都是tool calling感觉也是 LLM 进行微调后实现,另外听播客提到tool 使用都是自己做的工具,所以在产品边界内也一定解决了泛化问题,难点还是在reward和长程规划能力这块。
Joye_Mlny
Joye_Mlny
2025.4.24
讲的很清楚,反复听了两边
DumpFox
DumpFox
2025.4.20
给锋哥打call
自牧生
自牧生
2025.4.21
极致的自由度反而会让用户茫然不知所措(提高使用成本),用来做打发时间的应用还可以,如果是有明确目标的应用或 agent,牺牲一些自由度但是更加清晰明了才是正道
Joye_Mlny
Joye_Mlny
2025.4.24
推荐的书叫什么呀?可以在哪里找到
陈皮皮屁:shownote 里有写,强化学习之父 Richard Sutton 的《Reinforcement Learning:An Introduction》
Credie
Credie
2025.4.23
请问报名周六活动,填完问卷后,大概什么时候可以收到反馈呀?好想去😬😬
曲凯
:
这两天陆续在加,报的人比较多,如果明天没收到通知大概率就是满啦
JASting
JASting
2025.4.20
22:16 环境的核心是提供奖励信号的反馈机制,所以判断环境好不好,是要看是否有基于我行为的反馈。—-适用于人际关系和职场环境。
陈皮皮屁:喔确实如此,有没有及时反馈体验上天差地别