OpenAI ChatGPT Agent：AI Agent技术路线分水岭

康乐的AI万事屋

12分钟 ·6个月前

0

·

0

美国时间7月17日，OpenAI正式发布通用型ChatGPT Agent，整合了深度研究与执行工具，标志着AI Agent技术路径选择的分水岭时刻。该Agent采用“浏览器+沙盒虚拟机”架构，虽然可一站式完成复杂任务，但也存在速度慢、个性化不足等短板，引发市场对不同Agent底层技术路线的重新审视与对比。

AI Agent的四大底层架构

浏览器（Browser-based）Agent： 功能万能，可操作互联网所有网页，但运行速度慢且Token消耗高，如Perplexity的部分功能。

浏览器+沙盒（Sandbox）Agent： 结合网页操作与线下脚本执行（如Python），可进行数据分析等任务，但沙盒通常无法访问需认证的互联网服务。

有限沙盒+大模型（LLM）Agent： 大模型主导生成代码并在高度受限的沙盒环境中执行，仅支持预设的少量程序包，如Genspark的模板化Agent，速度较快但通用性受限。

工作流集成（Workflow API）Agent： 通过第三方服务API直接集成，确保服务交付可靠，速度快、结果精准，但业务范围受限于平台开放权限，如Pokee.ai和Zapier。

主流AI Agent产品特性与用户体验

OpenAI ChatGPT Agent： 浏览器能力最强，尤其在深度研究方面表现出色，但因浏览器机制导致任务速度较慢。

Manus： 追求万能体验（虚拟机+浏览器），理论上功能全面，但速度极慢（任务耗时30分钟以上），主要瓶颈在于网页加载速度。

Genspark： 转向模板化、垂直细分Agent，通过限制工具和环境来提升速度和Token效率，更像“微信小程序”式的应用，而非通用Agent。

Pokee.ai： 速度最快（市场同类产品4-10倍），通过直接调用第三方SDK/工具而非复杂虚拟机和Tool Calling实现，专注于专业人士使用场景（ToB/Prosumer），但受限于平台API开放权限。

AI Agent对互联网入口与商业模式的重塑

互联网入口转移： Agent将取代传统浏览器成为新的互联网入口，用户直接通过Agent完成任务，导致传统门户网站流量下降。

协议竞争： 各大公司（如Google的A2A、ChatGPT、Pokee）推出自己的协议，旨在抢占Agent生态的入口主导权。

创作者商业模式变革： 广告收入模式可能减弱，未来创作者或内容所有者将直接从Agent处获得内容使用付费，Agent通过自身广告机制覆盖成本。

推荐系统演变： 传统基于排名的推荐算法将受挑战，Agent的交互目标变为“多轮对话中每次都提供最精确信息”，以促成持续交互，而非单页面多条信息呈现。

在小宇宙打开