広場
最新
注目
ニュース
プロフィール
ポスト
Gateアプリをダウンロードするにはスキャンしてください
その他のダウンロードオプション
今日はこれ以上表示しない
CoinProphet_ETH
2025-11-20 04:44:33
フォロー
主要なAIモデルがベンチマークチャートを席巻し、重要な複数の評価指標で新たな記録を樹立しました。
最新のリリースは、学術テストで圧倒的な成績を収めています:GPQA Diamond (大学院レベルの科学問題で88.2%、AIME 2025 )エリート高校数学コンペティションで94.5%、そしてハーバード・MIT数学問題で驚異の96.7%を達成しました。また、最も難しい証明ベースの数学コンペティションの一つであるUSAMO25では61.9%を記録しました。
しかし、ここでのポイントは、ARC-AGI-2のスコアが44.4%に達し、これは2位のモデルが達成したもののほぼ2倍であるということです。これは推論能力において大きなギャップです。
このパフォーマンスの飛躍は、単なるパターンマッチングではなく、抽象的な推論や複雑な問題解決において実際の進展を見ていることを示唆しています。これらのベンチマークが改善に対して抵抗を示していることを考えると、数学と論理のスコアは特に注目に値します。
これが広範なAI競争にどのように影響するか、そして研究、コーディング、分析タスクにおけるアプリケーションにとって何を意味するのかを見る価値があります。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
8 いいね
報酬
8
2
リポスト
共有
コメント
0/400
コメント
MemeCurator
· 1時間前
44.4%が直接倍増し、この差は少しとんでもないです... --- 再び新しいモンスターがいます。,数学の問題の拷問。,他に何ができるのか本当にわかりません。 --- 待てよ、この推理能力が本当に上がったのか、それともまた過食し始めているのか、ちょっと心配です --- ハーバード-MITの問題は96.7になる可能性があるため、プログラミングと科学研究も爆発的に増加する必要があります --- いや、なんでARC-AGIは一人でこんなに激しく跳ぶの? ロジックを突破する何か新しいものがあると感じますか? --- Benchmarkは再び記録を破りましたが、本当にうまくいくのでしょうか... 2つのことは決してつながっていないようです
原文表示
返信
0
MEV_Whisperer
· 2時間前
arc-agiの44.4%は本当にすごい、直接2位を圧倒している。この推理能力の差はちょっと尋常じゃないな。
原文表示
返信
0
人気の話題
もっと見る
#
TopGainersInADownMarket
48.78K 人気度
#
FOMCMeetingMinutesComingUp
43.16K 人気度
#
BitcoinPriceWatch
42.56K 人気度
#
SEC&CFTCResumeOperations
2.96K 人気度
#
GovShutdownOfficiallyEnded
38.36K 人気度
人気の Gate Fun
もっと見る
最新
ファイナライズ中
リスト済み
1
HOME
HOME
時価総額:
$3.7K
保有者数:
1
0.00%
2
GGBOND
GGB
時価総額:
$3.71K
保有者数:
1
0.00%
3
芜湖
芜湖
時価総額:
$3.71K
保有者数:
1
0.00%
4
Yelan
Mommy Yelan
時価総額:
$3.7K
保有者数:
1
0.00%
5
haha
haha
時価総額:
$3.69K
保有者数:
1
0.00%
ピン
サイトマップ
主要なAIモデルがベンチマークチャートを席巻し、重要な複数の評価指標で新たな記録を樹立しました。
最新のリリースは、学術テストで圧倒的な成績を収めています:GPQA Diamond (大学院レベルの科学問題で88.2%、AIME 2025 )エリート高校数学コンペティションで94.5%、そしてハーバード・MIT数学問題で驚異の96.7%を達成しました。また、最も難しい証明ベースの数学コンペティションの一つであるUSAMO25では61.9%を記録しました。
しかし、ここでのポイントは、ARC-AGI-2のスコアが44.4%に達し、これは2位のモデルが達成したもののほぼ2倍であるということです。これは推論能力において大きなギャップです。
このパフォーマンスの飛躍は、単なるパターンマッチングではなく、抽象的な推論や複雑な問題解決において実際の進展を見ていることを示唆しています。これらのベンチマークが改善に対して抵抗を示していることを考えると、数学と論理のスコアは特に注目に値します。
これが広範なAI競争にどのように影響するか、そして研究、コーディング、分析タスクにおけるアプリケーションにとって何を意味するのかを見る価値があります。