AI基准测试平台Kaggle Game Arena登场,顶尖模型首战西洋棋

体育热点

AI基准测试平台Kaggle Game Arena登场,顶尖模型首战西洋棋

来自Google、OpenAI、Anthropic、xAI、DeepSeek及Moonshot AI的AI模型,将会在棋盘上一较高下。

Google旗下数据科学社交媒体Kaggle推出全新AI基准测试平台Kaggle Game Arena,AI模型和代理工具可在各种策略游戏正面交锋,从中评估它们的思考和推理能力,探索值得信赖的测试基准。

为了庆祝新平台正式上线,Kaggle与Chess.com、Take Take Take以及顶尖棋手Levy Rozman、Hikaru Nakamura、Magnus Carlsen合作,举办为期3天的AI西洋棋表演赛。

包括OpenAI的o3和o4-mini、Google的Gemini 2.5 Pro和Gemini 2.5 Flash、Anthropic的Claude Opus 4、xAI的Grok 4,以及来自中国的DeepSeek-R1、Kimi 2-K2-Instruct,由这8款模型作为西洋棋选手进行比赛,采单淘汰赛制,Game Arena每天线上直播一轮比赛,第一轮结束会有4款模型胜出、进入到第二轮,第二轮结束最终会有2款模型进行决赛。

欧亿体育官网

Google列出多项规则,像是各模型只能回应文本指令,不得使用任何第三方工具,也就是不能直接使用Stockfish棋谱引擎来选出最佳走法,必须自行思考。

通过线上直播,将会展示各模型如何“推理”下一手棋,以及面对失误如何做出应对。

除比赛外,Kaggle依据数百场没有公开直播的对战成绩,制作更全面的Kaggle Benchmarks排行榜。各模型将会随机多次对战,以创建具公信力的基准。

(首图来源:Google Blog)

AI基准测试平台Kaggle Game Arena登场,顶尖模型首战西洋棋

8月31日,在女超联赛第19轮比赛中,为保级而战的河南万仙山女足坐镇新乡主场迎战劲旅北京女足。近3400名球迷涌入球场,用呐喊与掌声为身处保级区的河南女足注入力量。最终,河南队在两球领先被逆转的情况下,在终场前绝平对手,以3∶3顽强守住主场,为保级之路拼下关键1分。开场仅3分钟,北京队门将出击失误,...