Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent｜对谈 Sheet0 创始人王文锋

42章经

53分钟 ·8个月前

29674

活动预告🥳：4 月 26 日，我们会请到 sheet0.com 创始人文锋做一场线下活动，大家记得翻到 shownotes 末尾查看报名信息！

关于 Agent 这个话题，我自己有一些核心在思考的问题，相信这些也是很多人同样会有疑问的地方，这期播客中我们就这些问题展开了讨论，并基本得到了一些答案：

1）怎么定义 Agent，Agent 最重要的是什么

2）今天的 Agent 和两年前的 Agent 的区别是什么

3）如何简单快速理解 Function Call，Coding Agent，MCP，A2A，Computer Use，Browser Use 等概念

4）不同方式的区别是什么，有什么优劣之分吗

5）怎么看通用 Agent 和垂直 Agent 的区别，终局是什么

6）AI Coding 和 Agent 最终会是一件事吗，或者二者会有什么关联

7）Workflow 和 Agent 的区别和终局

8）RL 这件事在 Agent 里的重要程度是什么，一家公司（尤其是做 Agent 的创业公司）到底该如何使用 RL

9）大模型自身的 Agent 比如 OpenAI Operator 和其他应用产品的区别是什么，最终市场形态会怎样

10）如何快速判断一家 Agent 公司做得好不好

另外，在整段讨论中，本期嘉宾文锋基于长时间对 Agent 的研究和实操，还提出了很多理解和分析 Agent 的框架和关键要素，以及在接近结尾部分留下了让我非常有启发的一句话：AI Coding 是大模型的灵巧手。

【人类博物馆】

导游：曲凯，42章经创始人

33 号珍藏：王文锋，Agent builder，sheet0.com Founder & CEO，连续创业者，有近十年 AI、Data Infra 产品设计和 Coding 经验。sheet0.com 已开放 waiting list 申请，即将内测。

【时光机】

00:47 Agent 三要素：LLM、Context、Tool Use

1:17 这波 Agent 和过去两年的区别是什么？

2:30 怎么理解 Agent 中的 Context？

4:21 快速理解 Tool Use 的不同方案
- 4:40 代码调用支线：Function Call、MCP、A2A 之间的区别是什么？
- 6:35 模拟人类支线：浏览器是大模型能调用的最重要的工具
- 7:07 两条支线各有优缺点，也可以混合起来
- 10:27 Manus、Devin、Genspark 各用的什么方案？
- 12:25 Browser Use 的核心价值是给用户提供「安全感」

14:19 AI Coding 和 Agent 最终会殊途同归吗？

16:15 Agent 的终局会走向通用还是垂直？

17:17 脱离了 RL，Agent 就不成立了
- 19:15 所以 Agent 创业公司该如何使用 RL？

22:54 一个非共识理解：聊天框 + 场景推荐 UI 界面就是最好的交互形态

31:54 Sheet0 是一个怎样的 Agent 产品？
- 34:15 怎么把任务执行的准确率做到了 100%？

35:39 Workflow 会被 Agent 颠覆掉吗？

36:49 不同 Agent 的核心区别是什么？

39:05 AI Coding 是大模型的「灵巧手」

41:41 Agent 有两大「信任」命题

44:22 分享一个预测 Agent 未来发展的思考框架

47:33 如何快速判断一家 Agent 公司做得好不好？

【Reference】

文锋推荐大家都读一读强化学习之父 Richard Sutton 的《Reinforcement Learning：An Introduction》

【活动预告🥳】

4 月 26 日，我们会请到文锋做一场线下活动，感兴趣的朋友欢迎点击链接或扫描下面的二维码，一起来认识&交流！

【The gang that made this happen】

制作人：陈皮、Celia

剪辑：陈皮

Bgm：Mondo Bongo - Joe Strummer & The Mescaleros

展开Show Notes

曲凯

2025.4.19

置顶

sheet0.com 已开放 waiting list 申请，即将内测，产品很有趣！另外下周六有一场嘉宾的线下活动，可在 shownotes 海报中扫码报名

HD268866u:没去上现场，有视频回放可以看吗，还是转成删减版（无ppt）播客呢～拜托拜托，你们周六线下聊的题目特别需要呢～之后这种agent落地入门的北京线下活动期待多搞！

Circmuggle

2025.4.20

Agent被定义为一个“基于环境反馈进行决策和行动的程序”。它的基本组成包括三个核心要素：第一是模型（Model），它是Agent运行的基础逻辑系统；第二是环境反馈（Feedback），即外部信息的变化对其行为的影响；第三是工具使用（Tool Use），Agent通过工具与外界交互以完成目标。这三个维度共同构成Agent运行的核心机制。
Context是agent做出高质量决策的前提。它不仅包括用户输入、历史对话记录，还包括模型访问过的网页、读取的代码、点击记录等一切状态信息。用户在打开某个App的瞬间（如打开美团即暗示“点外卖”意图）就隐含了大量context，Agent需要能敏锐捕捉这些信号。真正高质量的数据不仅包括输入与结果，还包括“从输入到结果之间”的中间过程。例如点击流、交互记录、实时环境数据等。Google拥有完整的用户行为序列数据，这正是其在AI Native时代最具竞争力的优势。Context是Agent内部对“当前环境”的建模基础。Agent依赖上下文来理解用户意图、保持状态一致性并形成连续性的行动链。

Agent的底层逻辑源自强化学习，其三要素为：状态（State）、行动（Action）、激励信号（Reward）。其中：状态即Context，描述Agent所处的环境信息；行动即工具调用；激励信号则是Agent用于评估行为好坏的标准。要真正设计好Agent，必须构造出“一个可以反馈的环境”，让Agent的行为有明确收敛目标。创业公司设计Agent时，关键在于：（1）将产品本身设计成“环境”，让模型理解输入、输出与行为反馈；（2）明确界定“好行为”与“坏行为”，定义奖励机制；（3）允许用户参与Agent的行为澄清与反馈过程，提高可解释性与交互灵活度。Agent面临双重信任挑战： 1）开发者需信任大模型的泛化能力，否则容易人为“封闭”模型能力，降低Agent的智能利用率； 2）用户需信任Agent的行为过程与结果，这就要求系统设计中加入可解释性机制、逐步反馈系统。
Agent系统构建的两个核心变量：（1）Context的构建：工程实现上复杂度高，常需半年以上的积累；（2）LLM性能：未来以GPT-5为代表的大模型能力提升，以及推理成本（token消耗）的下降，将显著影响Agent可用性与普及速度。要构建可持续演进的Agent，必须明确什么样的行为是“好”的（应被鼓励），什么是“差”的（应被纠正）。这类激励机制不应仅依赖模型本身，而需产品系统提供明确的行为评估信号，从而引导Agent优化自身决策。

wenfengwang:总结的太棒了！是AI总结还是人工总结的呀？

涛_toby:牛牛牛

共6条回复

薄荷波子汽水

2025.4.22

听了几遍也没听清说的书名

陈皮皮屁:shownote 里有写，强化学习之父 Richard Sutton 的《Reinforcement Learning：An Introduction》

Leo_i2gD:我也是来找书的

共4条回复

蔡文姬不听

2025.4.22

这期好棒

陈皮皮屁:🥳🥳🥳

Joes东

2025.4.20

这哥们的产品感觉更实用一些没有花里胡哨的东西也不担心被模型即产品替代

曲凯

:对，我也觉得。主打一个solid

Novac42

2025.4.27

很棒的一期，设计好一个让Agent可以接收反馈的环境那部分非常有洞见。不过有点惊讶嘉宾不认可A2A，我觉得A2A和MCP相当互补，如果没有A2A，只用MCP做任务编排会非常繁琐，要写很多胶水代码把一个本来是用于取context的server包装成处理任务的server，对授权的处理也很不安全。A2A在这一层做了必要抽象，让MCP server开发者不必自己造轮子了

wenfengwang:从一个工程师的视角来说，这些属于短期问题，不是长期问题。MCP是开源的，如果觉得哪里不好，大家一起去提交新的议案优化迭代MCP就好了，而不是重新起个新灶；此外，取ctx和处理task的任务，从抽象的角度来说，没有任何区别。对于处理task的而言，任然需要封装很多内部接口，才能对外提供服务，工作量并没有变少。

Novac42:开源协议也是有自己的定位和边界的，协议的scope并不会因为开源而无限扩展。MCP的设计原语如果想扩展到Agent之间的通信，需要做大改动，就算是硬改，本质上也是引入了另一个协议了。A2A这样的协议当然不一定用Google这套标准，但是，MCP做好底层取数，A2A或者其他类似定位的协议来做上层编排，这样的分工是必要的，而分工不断细化是产业越来越成熟的表现。

共3条回复

JASting

2025.4.22

36:14 workflow和agent区别：前者人驱动，后者ai驱动，准召平衡。

teyiyan:workflow 里也可以加入 LLM 让 LLM 判断吧

啊猴啊

2025.4.20

13:17 可视化是人机交互建立初始信任感的有效途径。

JASting

2025.4.19

00:55 agent是模型基于环境反馈使用tool的程序。

孟欣_dahR

2025.4.23

32:14 非常实用的分享，放弃对模型的幻想，凭空想象出你要的实现，尽量用工具完成重复且确定的任务

阿豪_5jmD

2025.4.22

文峰、文峰，我以为是梁文峰

Sanguis

2025.4.19

这期讲的非常棒！曲老师的问题真的非常好，嘉宾回答的干货很足，尤其是文峰讲的怎么保证100%生成准确率的方法，真的醍醐灌顶！作为一个也想开发agent的初学者学到了很多

陈皮皮屁:哦耶！也欢迎报名 4.26 的线下活动，面对面和文锋继续交流呀🤓

西瓜晒太阳:请问怎么保证准确率？好像没太听明白

共8条回复

AICRI

2025.4.21

24:46 完全不认可，没有准确度就没有使用场景。你可以极致自由，但只要Agent他的主定位是解决问题，那准确不然排在自由度之前。这又不是一个娱乐产品

wenfengwang:是交互的自由度，不是结果的自由度。后面几分钟有讲如何不依赖用户提高交互准确度。

AICRI:*必然

哄哄_IOuG

2025.4.21

听下来很有启发，重点在于 context 和 llm 结合，当中通过工程手段来确保reward 清晰，其实又回到之前吴老师那期pretrain + decision 那期，两期结合起来听更有收获。好奇 RL 的policy 是怎么实现的，不过播客里面讲action space都是tool calling感觉也是 LLM 进行微调后实现，另外听播客提到tool 使用都是自己做的工具，所以在产品边界内也一定解决了泛化问题，难点还是在reward和长程规划能力这块。