一個主要的AI模型剛剛衝擊了基準圖表,在多個重要評估指標上創下了新記錄。
最新發布在學術測試中表現出色:在 GPQA Diamond (研究生級科學問題)中獲得 88.2% 的分數,在 AIME 2025 (精英高中數學競賽)中獲得 94.5% 的分數,以及在哈佛-麻省理工學院數學問題中獲得令人印象深刻的 96.7% 的分數。它在 USAMO25 中也得到了 61.9% 的分數,這是最具挑戰性的基於證明的數學競賽之一。
但關鍵在於 – ARC-AGI-2 的得分達到了 44.4%,幾乎是第二名模型的兩倍。這是推理能力的巨大差距。
這一表現的飛躍表明,我們在抽象推理和復雜問題解決方面確實取得了進展,而不僅僅是模式匹配。數學和邏輯分數尤其引人注目,因爲這些基準一直抵抗改進。
值得關注這對更廣泛的人工智能競爭的影響,以及它對研究、編碼和分析任務的應用意味着什麼。
查看原文