Claude 3.5 震撼升级!学会用电脑,编码能力超越 OpenAI o1,AI 操作电脑新时代来临AI日报精选播客

Claude 3.5 震撼升级!学会用电脑,编码能力超越 OpenAI o1,AI 操作电脑新时代来临

3分钟 ·
播放数2
·
评论数0

亲爱的听众朋友们,今天我们要聊聊 AI 领域的一个重大新闻。Claude 3.5 迎来了重磅升级!Anthropic AI 公司推出了 Claude 3.5 Haiku 和 Claude 3.5 Sonnet 两个版本。其中,Claude 3.5 Sonnet 堪称最强推理模型,一举击溃 OpenAI o1,在各个方面都有显著提升,尤其是编码能力,在多项行业基准测试中表现出色。

但更令人惊讶的是,Claude 3.5 Sonnet 能够像人类一样使用计算机了!它可以查看屏幕、移动光标、点击按钮、输入文本,还能查找代码错误、自动搜集信息填表等。在公测中,开发者可以通过 API 指导它完成这些操作,虽然这项功能还处于实验阶段,使用起来有些笨拙且可能出错,但这无疑是一个巨大的突破。

Anthropic 开发者关系主管表示,“计算机使用” 是全新人机交互范式的第一步,也是 AI 模型应具备的全新基础能力。这一升级让许多做浏览器智能体的初创公司一夜之间变得过时。

为了让大家更好地理解 Claude 3.5 Sonnet 的能力,我们来看几个例子。比如,当被要求安排在金门大桥看日出的活动时,它会自行打开 Google 搜索相关信息,打开地图查找距离,还会打开日历安排日程。在自动编码写网站的演示中,它能在 Chrome 浏览器中导航到 Claude.ai 并请求创建个人主页,还能下载文件、在 VS Code 中打开并修改,甚至能发现并修复代码错误,成功启动服务器运行网站。在自动寻找数据填表的测试中,它也能截取屏幕截图,搜索所需信息并完成表格填写。

从测试数据来看,在 OSWorld 测试中,Claude 3.5 Sonnet 在仅基于屏幕截图的任务类别中得分为 14.9%,虽远超其他 AI 系统,但仍远低于人类 72.36% 的表现。不过,随着模型与环境的多次交互,其任务性能会得到优化。

另外,Claude 3.5 Haiku 虽然是 “最小杯”,但也是 Anthropic 速度最快的模型,它保持了与 Claude 3 Haiku 相同的运行成本和相近的处理速度,且在各项技能上全面提升,在多项智能基准测试中甚至超越了 Claude 3 Opus,在编码任务上表现尤为卓越。

Anthropic 是如何教会 Claude 操作电脑的呢?研究人员训练它准确计算像素以完成命令,让它能将用户指令转化为一系列逻辑步骤来执行操作,遇到障碍时还能自我纠正、重试任务。虽然 Claude 目前的操作还存在一些问题,比如相对缓慢且容易出错,无法像人类一样熟练地进行拖拽、缩放等操作,观察屏幕的方式也有待改进,但它的未来发展让人充满期待。相信在不久的将来,AI 操作电脑的能力会有更大的进步,也许软件开发小白都能轻松使用它。