Sebuah model AI besar baru saja menggemparkan grafik tolok ukur, menetapkan rekor baru di berbagai metrik evaluasi yang penting.
Rilisan terbaru sangat mengesankan dalam tes akademik: 88,2% pada GPQA Diamond (pertanyaan sains tingkat pascasarjana), 94,5% pada AIME 2025 (kompetisi matematika sekolah menengah elit), dan skor yang mengesankan 96,7% pada masalah Matematika Harvard-MIT. Itu juga mendapatkan 61,9% pada USAMO25, salah satu kompetisi matematika berbasis bukti yang paling sulit.
Tapi inilah yang menarik – skor ARC-AGI-2 mencapai 44,4%, yang hampir dua kali lipat dari yang dicapai model
Lihat Asli