一个主要的AI模型刚刚冲击了基准图表,在多个重要评估指标上创下了新记录。
最新发布在学术测试中表现出色:在 GPQA Diamond (研究生级科学问题)中获得 88.2% 的分数,在 AIME 2025 (精英高中数学竞赛)中获得 94.5% 的分数,以及在哈佛-麻省理工学院数学问题中获得令人印象深刻的 96.7% 的分数。它在 USAMO25 中也得到了 61.9% 的分数,这是最具挑战性的基于证明的数学竞赛之一。
但关键在于 – ARC-AGI-2 的得分达到了 44.4%,几乎是第二名模型的两倍。这是推理能力的巨大差距。
这一表现的飞跃表明,我们在抽象推理和复杂问题解决方面确实取得了进展,而不仅仅是模式匹配。数学和逻辑分数尤其引人注目,因为这些基准一直抵抗改进。
值得关注这对更广泛的人工智能竞争的影响,以及它对研究、编码和分析任务的应用意味着什么。
查看原文