S3E02: Agent的“工具箱”: 从“动嘴”到“动手”，AI怎么学会用工具

大家好，欢迎回到 AI有点意思。

上一期，我们认识了几个很酷的AI Agent：OpenClaw、Hermes、Claude Code、Character.AI。你有没有发现一个共同点？它们不只是会聊天，而是真的能干活——帮你发邮件、写代码、订机票。

那问题来了：普通的AI大模型，比如你用的ChatGPT，明明也很聪明，为什么它不能直接帮你发邮件？为什么它只能给你写一段邮件正文，然后让你自己复制粘贴到邮箱里？

答案很简单：因为大模型原本只有大脑，没有手脚。

大模型能思考、能推理、能生成文字，但它没办法直接点击鼠标、打开软件、调用API。就像一个天才作家，脑子里有无数好故事，但如果你不给他纸和笔，他也写不出来。

而AI Agent的秘密，就是给这个大脑配上了工具箱。工具箱里装满了各种工具——搜索、计算、发邮件、操作文件、运行代码……Agent可以根据任务的需要，自己决定掏出哪把工具、怎么用、用完再放回去。这就是AI从动嘴升级到动手的关键一步。

今天这一期，我们就来拆解这个工具箱，看看Agent到底是怎么学会用工具的。

我们用三个生活化的比喻，带你一步步理解。

第一步：认识工具——Agent的瑞士军刀

想象一下，你是一个设计师，你的桌子上有铅笔、尺子、剪刀、胶水。你要做一个手工模型，你会根据步骤选择不同的工具：先画线，再用剪刀剪，然后用胶水粘。你不会用剪刀去画线，也不会用铅笔去剪东西。

Agent也是一样。一个标准的Agent工具箱里，通常包含这几类工具：

信息类工具：比如搜索引擎、数据库查询、天气API。Agent需要查资料时，就调用它们。

操作类工具：比如发送邮件、创建文件、读写数据库。Agent需要执行具体动作时，就调用它们。

计算类工具：比如计算器、代码解释器。Agent遇到数学题或需要跑一段代码时，就调用它们。

系统类工具：比如操作鼠标键盘、控制浏览器。Agent需要模拟真实用户操作时，就调用它们。

不同类型的Agent，工具箱里的家伙也不一样。比如编程Agent Claude Code，它的工具箱里主要是代码编辑器、终端命令、Git版本控制；而全平台控制Agent OpenClaw，它的工具箱里则是微信、邮箱、钉钉等各种App的接口。

第二步：学会选择——Agent怎么知道该用哪个工具？

这就要说到一个关键技术，叫工具调用或者函数调用。名字很唬人，但道理很简单。

当用户给Agent一个任务，比如帮我查一下明天上海的天气，如果下雨就提醒我带伞，Agent的大脑（也就是大模型）会先进行推理：第一步，我需要获取天气信息，这要用到天气查询这个工具；第二步，根据查询结果判断是否需要提醒，这属于逻辑判断，不需要额外工具。

大模型被训练过，知道哪些工具能干什么。它会自动把用户的自然语言指令，翻译成机器能理解的工具调用指令。这个过程，就像你会根据我饿了这个念头，自动走到厨房打开冰箱——不需要别人教你，你已经形成了条件反射。

目前主流的大模型（如GPT、Claude、DeepSeek等）都原生支持工具调用。开发者只需要把工具的描述和参数格式告诉模型，模型就能在需要时自动调用。

第三步：动手干活——Agent怎么把工具用起来？

有了工具、也知道该用哪个，下一步就是真正执行。这一步通常需要环境的支持。

以Claude Code为例，它运行在你的电脑终端里。当它决定要修改一个文件时，它会调用文件系统的工具，把新内容写进去。当它决定要运行测试时，它会调用终端命令工具，执行pytest。这些工具背后的代码，是开发者提前写好的桥梁——一边是Agent的指令，一边是操作系统的API。

再比如OpenClaw，它想帮你从微信下载一个文件再发到邮箱。它的工具调用流程是：先调用微信的工具（模拟点击下载），然后把文件保存到本地，再调用邮箱的工具（创建新邮件、添加附件、发送）。整个链条完全自动化。

你看，Agent动手的本质，就是：大模型负责决策，工具负责执行，中间通过标准化的接口连接。

把工具箱用到极致的例子

不仅Claude Code和OpenClaw，很多Agent都在工具箱上做文章。比如前面提到的Hermes Agent，它的工具箱里除了常规工具，还有一个特殊的技能库工具——用来把自己的成功经验存起来，下次直接调用，这叫自我进化。Character AI虽然没有调用外部API，但它内部也有一套工具：检索用户历史对话中的记忆，这也算是一种信息类工具。

甚至在国内，通义灵码、Trae等编程助手也在学习Claude Code的思路，给Agent配上越来越丰富的工具箱。

简单总结一下今天的内容

第一，大模型本身只有大脑，不能直接操作外部世界。Agent通过工具箱弥补了这个短板，实现了从动嘴到动手的跨越。

第二，工具箱里的工具可以分为信息类、操作类、计算类、系统类等，不同类型的Agent有不同的配置。

第三，工具调用的核心技术是：大模型根据用户指令推理出需要哪个工具，然后通过预先写好的接口执行具体操作。

第四，代表性例子：Claude Code的文件读写和终端命令工具、OpenClaw的多App控制工具、Hermes的技能库工具。

说到这里，你可能已经明白了：AI Agent并不是魔法，它只是把大模型的聪明才智，和一堆精心设计的工具，巧妙地结合在了一起。

下一期，我们会继续拆解Agent的另一项关键能力——记忆。Agent怎么记住你三天前说过的话？怎么从长期对话中学习你的偏好？我们下期再见。

这里是 AI有点意思。每周和你一起，用最轻松的方式，看懂最前沿的AI。下期见。