Claude 3.5 震撼升级！学会用电脑，编码能力超越 OpenAI o1，AI 操作电脑新时代来临

亲爱的听众朋友们，今天我们要聊聊 AI 领域的一个重大新闻。Claude 3.5 迎来了重磅升级！Anthropic AI 公司推出了 Claude 3.5 Haiku 和 Claude 3.5 Sonnet 两个版本。其中，Claude 3.5 Sonnet 堪称最强推理模型，一举击溃 OpenAI o1，在各个方面都有显著提升，尤其是编码能力，在多项行业基准测试中表现出色。

但更令人惊讶的是，Claude 3.5 Sonnet 能够像人类一样使用计算机了！它可以查看屏幕、移动光标、点击按钮、输入文本，还能查找代码错误、自动搜集信息填表等。在公测中，开发者可以通过 API 指导它完成这些操作，虽然这项功能还处于实验阶段，使用起来有些笨拙且可能出错，但这无疑是一个巨大的突破。

Anthropic 开发者关系主管表示，“计算机使用” 是全新人机交互范式的第一步，也是 AI 模型应具备的全新基础能力。这一升级让许多做浏览器智能体的初创公司一夜之间变得过时。

为了让大家更好地理解 Claude 3.5 Sonnet 的能力，我们来看几个例子。比如，当被要求安排在金门大桥看日出的活动时，它会自行打开 Google 搜索相关信息，打开地图查找距离，还会打开日历安排日程。在自动编码写网站的演示中，它能在 Chrome 浏览器中导航到 Claude.ai 并请求创建个人主页，还能下载文件、在 VS Code 中打开并修改，甚至能发现并修复代码错误，成功启动服务器运行网站。在自动寻找数据填表的测试中，它也能截取屏幕截图，搜索所需信息并完成表格填写。

从测试数据来看，在 OSWorld 测试中，Claude 3.5 Sonnet 在仅基于屏幕截图的任务类别中得分为 14.9%，虽远超其他 AI 系统，但仍远低于人类 72.36% 的表现。不过，随着模型与环境的多次交互，其任务性能会得到优化。

另外，Claude 3.5 Haiku 虽然是 “最小杯”，但也是 Anthropic 速度最快的模型，它保持了与 Claude 3 Haiku 相同的运行成本和相近的处理速度，且在各项技能上全面提升，在多项智能基准测试中甚至超越了 Claude 3 Opus，在编码任务上表现尤为卓越。

Anthropic 是如何教会 Claude 操作电脑的呢？研究人员训练它准确计算像素以完成命令，让它能将用户指令转化为一系列逻辑步骤来执行操作，遇到障碍时还能自我纠正、重试任务。虽然 Claude 目前的操作还存在一些问题，比如相对缓慢且容易出错，无法像人类一样熟练地进行拖拽、缩放等操作，观察屏幕的方式也有待改进，但它的未来发展让人充满期待。相信在不久的将来，AI 操作电脑的能力会有更大的进步，也许软件开发小白都能轻松使用它。