主要なAIモデルがベンチマークチャートを席巻し、重要な複数の評価指標で新たな記録を樹立しました。
最新のリリースは、学術テストで圧倒的な成績を収めています:GPQA Diamond (大学院レベルの科学問題で88.2%、AIME 2025 )エリート高校数学コンペティションで94.5%、そしてハーバード・MIT数学問題で驚異の96.7%を達成しました。また、最も難しい証明ベースの数学コンペティションの一つであるUSAMO25では61.9%を記録しました。
しかし、ここでのポイントは、ARC-AGI-2のスコアが44.4%に達し、これは2位のモデルが達成したもののほぼ2倍であるということです。これは推論能力において大きなギャップです。
このパフォーマンスの飛躍は、単なるパターンマッチングではなく、抽象的な推論や複雑な問題解決において実際の進展を見ていることを示唆しています。これらのベンチマークが改善に対して抵抗を示していることを考えると、数学と論理のスコアは特に注目に値します。
これが広範なAI競争にどのように影響するか、そして研究、コーディング、分析タスクにおけるアプリケーションにとって何を意味するのかを見る価値があります。
原文表示