主要なAIモデルがベンチマークチャートを席巻し、重要な複数の評価指標で新たな記録を樹立しました。

最新のリリースは、学術テストで圧倒的な成績を収めています：GPQA Diamond (大学院レベルの科学問題で88.2%、AIME 2025 )エリート高校数学コンペティションで94.5%、そしてハーバード・MIT数学問題で驚異の96.7%を達成しました。また、最も難しい証明ベースの数学コンペティションの一つであるUSAMO25では61.9%を記録しました。

しかし、ここでのポイントは、ARC-AGI-2のスコアが44.4%に達し、これは2位のモデルが達成したもののほぼ2倍であるということです。これは推論能力において大きなギャップです。

このパフォーマンスの飛躍は、単なるパターンマッチングではなく、抽象的な推論や複雑な問題解決において実際の進展を見ていることを示唆しています。これらのベンチマークが改善に対して抵抗を示していることを考えると、数学と論理のスコアは特に注目に値します。

これが広範なAI競争にどのように影響するか、そして研究、コーディング、分析タスクにおけるアプリケーションにとって何を意味するのかを見る価値があります。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

8 いいね

報酬
8
2
リポスト
共有

0/400

MemeCurator

· 1時間前

44.4%が直接倍増し、この差は少しとんでもないです... --- 再び新しいモンスターがいます。,数学の問題の拷問。,他に何ができるのか本当にわかりません。 --- 待てよ、この推理能力が本当に上がったのか、それともまた過食し始めているのか、ちょっと心配です --- ハーバード-MITの問題は96.7になる可能性があるため、プログラミングと科学研究も爆発的に増加する必要があります --- いや、なんでARC-AGIは一人でこんなに激しく跳ぶの? ロジックを突破する何か新しいものがあると感じますか? --- Benchmarkは再び記録を破りましたが、本当にうまくいくのでしょうか... 2つのことは決してつながっていないようです

原文表示返信0

MEV_Whisperer