Meski saya berpendapat bahwa ini tidak sepenuhnya mencerminkan apa yang bisa dilakukan model-model mutakhir. Menurut saya? Baik r1 maupun varian GPT sumber terbuka tertinggal *secara signifikan* di belakang iterasi Claude yang lebih baru ketika harus menangani tugas-tugas spesifik ini. Kesenjangan kinerja ini lebih mencolok daripada yang mungkin diharapkan orang—terutama dalam skenario penalaran yang halus. Kami melihat adanya perbedaan nyata dalam kurva kemampuan di sini.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
8 Suka
Hadiah
8
4
Posting ulang
Bagikan
Komentar
0/400
OnchainDetective
· 3jam yang lalu
Tidak setuju, memang Claude kali ini sangat kuat, tetapi kemampuan penalaran R1 mungkin terlalu diremehkan.
Lihat AsliBalas0
MidnightTrader
· 3jam yang lalu
nah claude benar-benar mengalahkan yang lain, r1 jebakan itu murni pujian berlebihan
Lihat AsliBalas0
NFTFreezer
· 4jam yang lalu
nah claude memang keren, r1 jebakan itu sejujurnya agak dibesar-besarkan.
Lihat AsliBalas0
LuckyHashValue
· 4jam yang lalu
nah claude benar-benar mengalahkan, r1 jebakan itu agak dibesar-besarkan
Kerja hebat dalam penelitian ini!
Meski saya berpendapat bahwa ini tidak sepenuhnya mencerminkan apa yang bisa dilakukan model-model mutakhir. Menurut saya? Baik r1 maupun varian GPT sumber terbuka tertinggal *secara signifikan* di belakang iterasi Claude yang lebih baru ketika harus menangani tugas-tugas spesifik ini. Kesenjangan kinerja ini lebih mencolok daripada yang mungkin diharapkan orang—terutama dalam skenario penalaran yang halus. Kami melihat adanya perbedaan nyata dalam kurva kemampuan di sini.