一個主要的AI模型剛剛衝擊了基準圖表，在多個重要評估指標上創下了新記錄。

最新發布在學術測試中表現出色：在 GPQA Diamond (研究生級科學問題)中獲得 88.2% 的分數，在 AIME 2025 (精英高中數學競賽)中獲得 94.5% 的分數，以及在哈佛-麻省理工學院數學問題中獲得令人印象深刻的 96.7% 的分數。它在 USAMO25 中也得到了 61.9% 的分數，這是最具挑戰性的基於證明的數學競賽之一。

但關鍵在於 – ARC-AGI-2 的得分達到了 44.4%，幾乎是第二名模型的兩倍。這是推理能力的巨大差距。

這一表現的飛躍表明，我們在抽象推理和復雜問題解決方面確實取得了進展，而不僅僅是模式匹配。數學和邏輯分數尤其引人注目，因爲這些基準一直抵抗改進。

值得關注這對更廣泛的人工智能競爭的影響，以及它對研究、編碼和分析任務的應用意味着什麼。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

8人點讚了這條動態

讚賞
8
2
轉發
分享

留言

0/400

梗图收藏家

· 3小時前

44.4%直接翻倍啊，這差距有點離譜... --- 又來新怪物了，數學題虐殺，真不知道咱們還能卷什麼 --- 等等，這推理能力真的漲了還是又開始過度擬合了，有點擔心 --- Harvard-MIT的題都能96.7，那編程和科研是不是也得跟着爆炸啊 --- 不是，爲啥ARC-AGI單獨jump這麼猛？感覺邏輯突破了什麼新東西？ --- benchmark又破紀錄了，但真能幹活嗎...這倆事好像從來不掛鉤

查看原文回復0

MEV_Whisperer

· 3小時前

arc-agi那44.4%真的絕了，直接碾壓第二名，這推理能力差距有點離譜啊

查看原文回復0

熱門話題查看更多
#逆勢上漲幣種推薦
5.1萬熱度
#美聯儲會議紀要將公佈
4.44萬熱度
#比特幣行情觀察
4.43萬熱度
#我對Gate廣場的建議分享
1.14萬熱度
#Gate廣場聖誕送溫暖
2556 熱度

熱門 Gate Fun查看更多

1
ABCABC
市值:$3703.44持有人數:1
0.00%
2
HOMEHOME
市值:$3703.44持有人數:1
0.00%
3
GGBONDGGB
市值:$3710.34持有人數:1
0.00%
4
芜湖芜湖
市值:$3710.34持有人數:1
0.00%
5
YelanMommy Yelan
市值:$3703.44持有人數:1
0.00%