一个主要的AI模型刚刚冲击了基准图表，在多个重要评估指标上创下了新记录。

最新发布在学术测试中表现出色：在 GPQA Diamond (研究生级科学问题)中获得 88.2% 的分数，在 AIME 2025 (精英高中数学竞赛)中获得 94.5% 的分数，以及在哈佛-麻省理工学院数学问题中获得令人印象深刻的 96.7% 的分数。它在 USAMO25 中也得到了 61.9% 的分数，这是最具挑战性的基于证明的数学竞赛之一。

但关键在于 – ARC-AGI-2 的得分达到了 44.4%，几乎是第二名模型的两倍。这是推理能力的巨大差距。

这一表现的飞跃表明，我们在抽象推理和复杂问题解决方面确实取得了进展，而不仅仅是模式匹配。数学和逻辑分数尤其引人注目，因为这些基准一直抵抗改进。

值得关注这对更广泛的人工智能竞争的影响，以及它对研究、编码和分析任务的应用意味着什么。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

8人点赞了这条动态

赞赏
8
2
转发
分享

0/400

梗图收藏家

· 6小时前

44.4%直接翻倍啊，这差距有点离谱... --- 又来新怪物了，数学题虐杀，真不知道咱们还能卷什么 --- 等等，这推理能力真的涨了还是又开始过度拟合了，有点担心 --- Harvard-MIT的题都能96.7，那编程和科研是不是也得跟着爆炸啊 --- 不是，为啥ARC-AGI单独jump这么猛？感觉逻辑突破了什么新东西？ --- benchmark又破纪录了，但真能干活吗...这俩事好像从来不挂钩

MEV_Whisperer

· 6小时前

arc-agi那44.4%真的绝了，直接碾压第二名，这推理能力差距有点离谱啊

热门话题查看更多
#逆势上涨币种推荐
5.36万热度
#美联储会议纪要将公布
4.66万热度
#比特币行情观察
4.66万热度
#我对Gate广场的建议分享
1.16万热度
#Gate广场圣诞送温暖
3689 热度

热门 Gate Fun查看更多

1
GATERACEGATERACE
市值:$3634.48持有人数:1
0.00%
2
FISTFist
市值:$3631.03持有人数:1
0.00%
3
FLASHFlashJoy
市值:$3968.06持有人数:3
1.41%
4
NLCATNeuralLink Cat
市值:$3668.96持有人数:1
0.00%
5
MOOSEMarsMoose
市值:$3686.2持有人数:1
0.00%