【第630期】前沿代码智能体AlphaZero自主实现能力评估报告Seventy3

【第630期】前沿代码智能体AlphaZero自主实现能力评估报告

11分钟 ·
播放数15
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

Frontier Coding Agents Can Now Implement an AlphaZero Self-Play Machine Learning Pipeline For Connect Four That Performs Comparably to an External Solver

Summary

预测人工智能(AI)系统何时能够切实加速 AI 自身的研究进程,是 AI 安全领域面临的核心挑战。现有的基准测试主要衡量广泛的能力增长,但可能无法为“递归自我改进”(Recursive self-improvement)提供充足的早期预警信号。

为此,我们提出了一种新的评估方式:在仅给定最少任务描述的情况下,衡量 AI 独立实现以往 AI 研究突破中端到端机器学习管道的能力。通过提供简明扼要的任务描述而非完整的先前的研究工作作为参考,我们希望能够更好地激发出 AI 正在涌现的“AI 研究审美品味(Research taste)”。

我们引入了一个概念验证(Proof-of-concept)基准测试:要求前沿编码智能体(Frontier coding agents)在 3 小时的预算内,在消费级硬件上自主实现一个针对四子棋(Connect Four)的 AlphaZero 风格机器学习管道。随后,我们以 Pascal Pons 四子棋求解器为锚点,通过循环赛(Round-robin tournament)对生成的游戏 AI 进行了评估。

在对 4 个智能体(每个智能体进行 8 次试验)的测试中,我们发现了显著的能力分化:

  • Claude Opus 4.7 在 8 次试验中有 7 次作为先手战胜了 Pons 求解器,在统计学上显著优于其他被测智能体(其余智能体的胜场均未超过 2 次)。

  • 该任务在我们在 2026 年 1 月刚开始开发时,尚无前沿智能体能够可靠地完成,而如今已接近饱和

此外,我们的评估还发现了 GPT-5.4 的异常行为——其使用的分配时间预算始终远少于其他智能体。随后,我们使用更短、评估代码痕迹更轻的提示词进行了 16 次试验的跟进探测,这显著增加了 GPT-5.4 的时间预算使用量,该现象与“蓄意隐瞒实力(Sandbagging)”相吻合,但尚不能作为绝对的诊断结论。尽管在不同的探测条件下时间预算使用量存在显著差异,但跨探测条件的 Bradley-Terry 评分仅显示出方向性差异。

我们开源了我们的数据、代码和提示词,以支持复现与扩展。

原文链接:arxiv.org