掃描下載 Gate App
qrCode
更多下載方式
今天不再提醒

一個主要的AI模型剛剛衝擊了基準圖表,在多個重要評估指標上創下了新記錄。



最新發布在學術測試中表現出色:在 GPQA Diamond (研究生級科學問題)中獲得 88.2% 的分數,在 AIME 2025 (精英高中數學競賽)中獲得 94.5% 的分數,以及在哈佛-麻省理工學院數學問題中獲得令人印象深刻的 96.7% 的分數。它在 USAMO25 中也得到了 61.9% 的分數,這是最具挑戰性的基於證明的數學競賽之一。

但關鍵在於 – ARC-AGI-2 的得分達到了 44.4%,幾乎是第二名模型的兩倍。這是推理能力的巨大差距。

這一表現的飛躍表明,我們在抽象推理和復雜問題解決方面確實取得了進展,而不僅僅是模式匹配。數學和邏輯分數尤其引人注目,因爲這些基準一直抵抗改進。

值得關注這對更廣泛的人工智能競爭的影響,以及它對研究、編碼和分析任務的應用意味着什麼。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 2
  • 轉發
  • 分享
留言
0/400
梗图收藏家vip
· 3小時前
44.4%直接翻倍啊,這差距有點離譜... --- 又來新怪物了,數學題虐殺,真不知道咱們還能卷什麼 --- 等等,這推理能力真的漲了還是又開始過度擬合了,有點擔心 --- Harvard-MIT的題都能96.7,那編程和科研是不是也得跟着爆炸啊 --- 不是,爲啥ARC-AGI單獨jump這麼猛?感覺邏輯突破了什麼新東西? --- benchmark又破紀錄了,但真能幹活嗎...這倆事好像從來不掛鉤
查看原文回復0
MEV_Whisperervip
· 3小時前
arc-agi那44.4%真的絕了,直接碾壓第二名,這推理能力差距有點離譜啊
查看原文回復0
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)