AI棋力大考：顶尖大模型棋盘见真章

康乐的AI万事屋

13分钟 ·9个月前

0

·

0

一场为期三天的AI国际象棋比赛即将开幕，旨在通过实战对决评估当前顶尖大模型的真实性能，包括来自OpenAI、DeepSeek和月之暗面等公司的产品。这项比赛基于谷歌新推出的开源基准测试平台Kaggle Game Arena，旨在解决现有AI基准测试无法有效区分高级模型性能的问题。诺奖得主Demis Hassabis强调了游戏作为AI能力试炼场的重要性，并对该平台推动的进步充满期待。

AI国际象棋比赛概览

比赛时间与持续： 太平洋时间8月5日至7日，共计3天。

参赛模型： 8款前沿AI模型，包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2.5 Pro和Gemini 2.5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4。

比赛目的： 通过实战对决验证AI模型的真实性能，解决现有基准测试难以跟上模型发展速度的问题。

Kaggle Game Arena平台

平台性质： 谷歌推出的全新、公开的基准测试平台，专注于AI模型在策略游戏中的对决。

核心功能： 允许AI模型在国际象棋等游戏中展开正面交锋，并提供实时更新的比赛对阵表、动态排行榜数据以及开源环境代码。

透明度与可靠性： 游戏执行框架和环境开源，采用严格的全员对抗赛制（all-play-all）以确保统计结果的可靠性。

高管评价： Google DeepMind联合创始人兼首席执行官Demis Hassabis认为游戏是检验AI能力的重要试炼场，并对该平台推动AI能力提升充满期待。

比赛规则与赛制

赛制： 采用单败淘汰制，每场对决包含四局比赛，先获得两分的模型晋级（胜一局得1分，平局各得0.5分）；若2-2平则加赛一局决胜负。

赛程安排： 首日（8月5日）8款模型进行4场对决；次日（8月6日）晋级的4款模型进行2场半决赛；决赛日（8月7日）进行冠军争夺战。

比赛规则： 比赛基于文本输入进行，模型无法使用外部工具（如Stockfish），不被告知合法走法列表，最多有3次重试机会提交合法走法，每步棋有60分钟超时限制。

在小宇宙打开