大家好,欢迎回到 AI有点意思。
上一期,我们认识了几个很酷的AI Agent:OpenClaw、Hermes、Claude Code、Character.AI。你有没有发现一个共同点?它们不只是会聊天,而是真的能干活——帮你发邮件、写代码、订机票。
那问题来了:普通的AI大模型,比如你用的ChatGPT,明明也很聪明,为什么它不能直接帮你发邮件?为什么它只能给你写一段邮件正文,然后让你自己复制粘贴到邮箱里?
答案很简单:因为大模型原本只有大脑,没有手脚。
大模型能思考、能推理、能生成文字,但它没办法直接点击鼠标、打开软件、调用API。就像一个天才作家,脑子里有无数好故事,但如果你不给他纸和笔,他也写不出来。
而AI Agent的秘密,就是给这个大脑配上了工具箱。工具箱里装满了各种工具——搜索、计算、发邮件、操作文件、运行代码……Agent可以根据任务的需要,自己决定掏出哪把工具、怎么用、用完再放回去。这就是AI从动嘴升级到动手的关键一步。
今天这一期,我们就来拆解这个工具箱,看看Agent到底是怎么学会用工具的。
我们用三个生活化的比喻,带你一步步理解。
第一步:认识工具——Agent的瑞士军刀
想象一下,你是一个设计师,你的桌子上有铅笔、尺子、剪刀、胶水。你要做一个手工模型,你会根据步骤选择不同的工具:先画线,再用剪刀剪,然后用胶水粘。你不会用剪刀去画线,也不会用铅笔去剪东西。
Agent也是一样。一个标准的Agent工具箱里,通常包含这几类工具:
信息类工具:比如搜索引擎、数据库查询、天气API。Agent需要查资料时,就调用它们。
操作类工具:比如发送邮件、创建文件、读写数据库。Agent需要执行具体动作时,就调用它们。
计算类工具:比如计算器、代码解释器。Agent遇到数学题或需要跑一段代码时,就调用它们。
系统类工具:比如操作鼠标键盘、控制浏览器。Agent需要模拟真实用户操作时,就调用它们。
不同类型的Agent,工具箱里的家伙也不一样。比如编程Agent Claude Code,它的工具箱里主要是代码编辑器、终端命令、Git版本控制;而全平台控制Agent OpenClaw,它的工具箱里则是微信、邮箱、钉钉等各种App的接口。
第二步:学会选择——Agent怎么知道该用哪个工具?
这就要说到一个关键技术,叫工具调用或者函数调用。名字很唬人,但道理很简单。
当用户给Agent一个任务,比如帮我查一下明天上海的天气,如果下雨就提醒我带伞,Agent的大脑(也就是大模型)会先进行推理:第一步,我需要获取天气信息,这要用到天气查询这个工具;第二步,根据查询结果判断是否需要提醒,这属于逻辑判断,不需要额外工具。
大模型被训练过,知道哪些工具能干什么。它会自动把用户的自然语言指令,翻译成机器能理解的工具调用指令。这个过程,就像你会根据我饿了这个念头,自动走到厨房打开冰箱——不需要别人教你,你已经形成了条件反射。
目前主流的大模型(如GPT、Claude、DeepSeek等)都原生支持工具调用。开发者只需要把工具的描述和参数格式告诉模型,模型就能在需要时自动调用。
第三步:动手干活——Agent怎么把工具用起来?
有了工具、也知道该用哪个,下一步就是真正执行。这一步通常需要环境的支持。
以Claude Code为例,它运行在你的电脑终端里。当它决定要修改一个文件时,它会调用文件系统的工具,把新内容写进去。当它决定要运行测试时,它会调用终端命令工具,执行pytest。这些工具背后的代码,是开发者提前写好的桥梁——一边是Agent的指令,一边是操作系统的API。
再比如OpenClaw,它想帮你从微信下载一个文件再发到邮箱。它的工具调用流程是:先调用微信的工具(模拟点击下载),然后把文件保存到本地,再调用邮箱的工具(创建新邮件、添加附件、发送)。整个链条完全自动化。
你看,Agent动手的本质,就是:大模型负责决策,工具负责执行,中间通过标准化的接口连接。
把工具箱用到极致的例子
不仅Claude Code和OpenClaw,很多Agent都在工具箱上做文章。比如前面提到的Hermes Agent,它的工具箱里除了常规工具,还有一个特殊的技能库工具——用来把自己的成功经验存起来,下次直接调用,这叫自我进化。Character AI虽然没有调用外部API,但它内部也有一套工具:检索用户历史对话中的记忆,这也算是一种信息类工具。
甚至在国内,通义灵码、Trae等编程助手也在学习Claude Code的思路,给Agent配上越来越丰富的工具箱。
简单总结一下今天的内容
第一,大模型本身只有大脑,不能直接操作外部世界。Agent通过工具箱弥补了这个短板,实现了从动嘴到动手的跨越。
第二,工具箱里的工具可以分为信息类、操作类、计算类、系统类等,不同类型的Agent有不同的配置。
第三,工具调用的核心技术是:大模型根据用户指令推理出需要哪个工具,然后通过预先写好的接口执行具体操作。
第四,代表性例子:Claude Code的文件读写和终端命令工具、OpenClaw的多App控制工具、Hermes的技能库工具。
说到这里,你可能已经明白了:AI Agent并不是魔法,它只是把大模型的聪明才智,和一堆精心设计的工具,巧妙地结合在了一起。
下一期,我们会继续拆解Agent的另一项关键能力——记忆。Agent怎么记住你三天前说过的话?怎么从长期对话中学习你的偏好?我们下期再见。
这里是 AI有点意思。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期见。
