美国时间7月17日,OpenAI正式发布通用型ChatGPT Agent,整合了深度研究与执行工具,标志着AI Agent技术路径选择的分水岭时刻。该Agent采用“浏览器+沙盒虚拟机”架构,虽然可一站式完成复杂任务,但也存在速度慢、个性化不足等短板,引发市场对不同Agent底层技术路线的重新审视与对比。
AI Agent的四大底层架构
- 浏览器(Browser-based)Agent: 功能万能,可操作互联网所有网页,但运行速度慢且Token消耗高,如Perplexity的部分功能。
- 浏览器+沙盒(Sandbox)Agent: 结合网页操作与线下脚本执行(如Python),可进行数据分析等任务,但沙盒通常无法访问需认证的互联网服务。
- 有限沙盒+大模型(LLM)Agent: 大模型主导生成代码并在高度受限的沙盒环境中执行,仅支持预设的少量程序包,如Genspark的模板化Agent,速度较快但通用性受限。
- 工作流集成(Workflow API)Agent: 通过第三方服务API直接集成,确保服务交付可靠,速度快、结果精准,但业务范围受限于平台开放权限,如Pokee.ai和Zapier。
主流AI Agent产品特性与用户体验
- OpenAI ChatGPT Agent: 浏览器能力最强,尤其在深度研究方面表现出色,但因浏览器机制导致任务速度较慢。
- Manus: 追求万能体验(虚拟机+浏览器),理论上功能全面,但速度极慢(任务耗时30分钟以上),主要瓶颈在于网页加载速度。
- Genspark: 转向模板化、垂直细分Agent,通过限制工具和环境来提升速度和Token效率,更像“微信小程序”式的应用,而非通用Agent。
- Pokee.ai: 速度最快(市场同类产品4-10倍),通过直接调用第三方SDK/工具而非复杂虚拟机和Tool Calling实现,专注于专业人士使用场景(ToB/Prosumer),但受限于平台API开放权限。
AI Agent对互联网入口与商业模式的重塑
- 互联网入口转移: Agent将取代传统浏览器成为新的互联网入口,用户直接通过Agent完成任务,导致传统门户网站流量下降。
- 协议竞争: 各大公司(如Google的A2A、ChatGPT、Pokee)推出自己的协议,旨在抢占Agent生态的入口主导权。
- 创作者商业模式变革: 广告收入模式可能减弱,未来创作者或内容所有者将直接从Agent处获得内容使用付费,Agent通过自身广告机制覆盖成本。
- 推荐系统演变: 传统基于排名的推荐算法将受挑战,Agent的交互目标变为“多轮对话中每次都提供最精确信息”,以促成持续交互,而非单页面多条信息呈现。
