Sebuah model AI besar baru saja menggemparkan grafik tolok ukur, menetapkan rekor baru di berbagai metrik evaluasi yang penting.

Rilisan terbaru sangat mengesankan dalam tes akademik: 88,2% pada GPQA Diamond (pertanyaan sains tingkat pascasarjana), 94,5% pada AIME 2025 (kompetisi matematika sekolah menengah elit), dan skor yang mengesankan 96,7% pada masalah Matematika Harvard-MIT. Itu juga mendapatkan 61,9% pada USAMO25, salah satu kompetisi matematika berbasis bukti yang paling sulit.

Tapi inilah yang menarik – skor ARC-AGI-2 mencapai 44,4%, yang hampir dua kali lipat dari yang dicapai model peringkat kedua. Itu adalah kesenjangan besar dalam kemampuan penalaran.

Lompatan kinerja ini menunjukkan bahwa kita sedang melihat kemajuan nyata dalam penalaran abstrak dan pemecahan masalah yang kompleks, bukan hanya pencocokan pola. Skor matematika dan logika sangat mencolok mengingat bagaimana tolok ukur ini telah resisten terhadap perbaikan.

Layak untuk ditonton bagaimana ini mempengaruhi perlombaan AI yang lebih luas dan apa artinya untuk aplikasi dalam penelitian, pengkodean, dan tugas analitis.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

8 Suka

Hadiah
8
2
Posting ulang
Bagikan

Komentar

0/400

MemeCurator

· 6jam yang lalu

44,4% langsung dua kali lipat, perbedaannya agak aneh... --- Ada monster baru lagi, soal matematika yang menyiksa, benar-benar tidak tahu kita bisa menggulung apa lagi --- Tunggu, kemampuan penalaran ini benar-benar naik atau sudah mulai overfitting lagi, agak khawatir --- Soal Harvard-MIT bisa 96,7, apakah pemrograman dan penelitian juga akan meledak? --- Bukan, mengapa ARC-AGI melompat begitu hebat? Rasanya logika telah melampaui sesuatu yang baru? --- benchmark lagi-lagi memecahkan rekor, tapi apakah benar-benar bisa bekerja... dua hal ini sepertinya tidak pernah saling terkait

Lihat AsliBalas0

MEV_Whisperer