专访 Anthropic Sholto Douglas 超越编码：AI Agent 何时成为你的全能数字同事？

🔖 人物介绍

嘉宾（说话人2）：Sholto Douglas，Anthropic 技术团队成员。

主持人（说话人1）：Jacob Effron，Redpoint 红点创投合伙人，前 Flatiron Health 产品经理

💬 内容概述

本期节目邀请了 Anthropic 的 Sholto Douglas，深入探讨了 AI Agent（智能体）领域的最新进展。Sholto 分享了他对 AI Agent 能力扩展、可靠性挑战、以及它们如何加速 AI 研究（尤其是在编程领域）的见解。他还展望了通用智能助手何时能普及，并讨论了未来 AI Agent 在提出创新研究方向和解决复杂问题方面的潜力。

🔍 核心讨论点

AI Agent 的进展与可靠性： Sholto Douglas 认为，衡量 AI Agent 成功的关键在于其完成任务的“成功率和时间跨度”的关系。虽然目前取得了显著进展，但在可靠性方面尚未达到百分之百，模型在初次尝试时的成功率与多次尝试后的表现仍有差距。不过，趋势表明 AI Agent 正稳步迈向专家级甚至超人的可靠性。

编程能力作为AI进展的风向标： Anthropic 高度重视编程能力，并将其视为衡量模型能力最重要的先行指标。 Sholto 认为，编程是 AI 研究本身得以加速的首要环节。

AI Agent 加速 AI 研究： AI Agent 正在极大地加速工程方面的工作。顶尖工程师反馈，AI 在他们熟悉的领域带来了约1.5倍的效率提升，在不熟悉的领域则高达5倍。

通用智能助手的实现： 对于何时能拥有能处理日常事务（如填写表格、浏览网页）的通用智能助手，Sholto 提出了“个人事务处理的逃避速度”的概念。他预计到明年年底，我们将看到 AI 助手在浏览器中处理各种事务成为常态。

模型泛化与专业化： Sholto 倾向于“大模型至上主义”，认为单一核心的大模型最终会占据主导。虽然针对特定公司或个人需求的模型微调很重要，但这更多是适应性调整而非行业专属。他认为未来能够根据任务难易程度动态调整算力，从而淡化小型模型和大型模型之间的区别。

AI Agent 提出创新研究方向： Sholto 预计 AI Agent 在未来2年内，甚至可能在3个月内，就能开始提出有意思的科学提案。他强调，只要给模型针对特定任务的反馈机制和练习机会，它们就能在相应领域成为专家。

验证与反馈机制的重要性： 对于机器学习研究这类易于验证的领域（如损失函数降低），AI Agent 能更快展现其能力。对于医学等不那么容易直接验证的领域，可以通过更细致的评估和反馈机制（如模拟考试长篇回答并给出评分点）来将其转化为更容易验证的问题，从而推动进展。

🚀 未来展望

AI Agent 有望在未来一年内（到明年年底）在浏览器中帮助用户处理各种事务。

AI Agent 提出新颖科学想法的能力可能在未来数月到两年内实现。

尽管目前 AI Agent 在可靠性上仍有提升空间，但长期趋势是积极的，有望达到专家级甚至超人的水平。

单一、核心的大模型将主导未来，能够根据任务动态调整算力。

📌 关键词

AI Agent (智能体)，可靠性 (Reliability)，编程能力 (Programming Capability)，AI 研究加速 (Accelerating AI Research)，通用智能助手 (General Purpose Agent)，个人事务处理的逃避速度 (Personal Admin Escape Velocity)，大模型至上主义 (Large Model Maximalism)，反馈机制 (Feedback Mechanism)，强化学习 (Reinforcement Learning, RL)，Anthropic