一场为期三天的AI国际象棋比赛即将开幕,旨在通过实战对决评估当前顶尖大模型的真实性能,包括来自OpenAI、DeepSeek和月之暗面等公司的产品。这项比赛基于谷歌新推出的开源基准测试平台Kaggle Game Arena,旨在解决现有AI基准测试无法有效区分高级模型性能的问题。诺奖得主Demis Hassabis强调了游戏作为AI能力试炼场的重要性,并对该平台推动的进步充满期待。
AI国际象棋比赛概览
- 比赛时间与持续: 太平洋时间8月5日至7日,共计3天。
- 参赛模型: 8款前沿AI模型,包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2.5 Pro和Gemini 2.5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4。
- 比赛目的: 通过实战对决验证AI模型的真实性能,解决现有基准测试难以跟上模型发展速度的问题。
Kaggle Game Arena平台
- 平台性质: 谷歌推出的全新、公开的基准测试平台,专注于AI模型在策略游戏中的对决。
- 核心功能: 允许AI模型在国际象棋等游戏中展开正面交锋,并提供实时更新的比赛对阵表、动态排行榜数据以及开源环境代码。
- 透明度与可靠性: 游戏执行框架和环境开源,采用严格的全员对抗赛制(all-play-all)以确保统计结果的可靠性。
- 高管评价: Google DeepMind联合创始人兼首席执行官Demis Hassabis认为游戏是检验AI能力的重要试炼场,并对该平台推动AI能力提升充满期待。
比赛规则与赛制
- 赛制: 采用单败淘汰制,每场对决包含四局比赛,先获得两分的模型晋级(胜一局得1分,平局各得0.5分);若2-2平则加赛一局决胜负。
- 赛程安排: 首日(8月5日)8款模型进行4场对决;次日(8月6日)晋级的4款模型进行2场半决赛;决赛日(8月7日)进行冠军争夺战。
- 比赛规则: 比赛基于文本输入进行,模型无法使用外部工具(如Stockfish),不被告知合法走法列表,最多有3次重试机会提交合法走法,每步棋有60分钟超时限制。
