Data Jinshi 8 November, menurut situs resmi Shadow of the Moon, Kimi K2 Thinking mencatat rekor baru dalam penilaian standar kemampuan penalaran, pengkodean, dan agen. K2 Thinking meraih skor SOTA sebesar 44,9% dalam penilaian standar HLE, mencapai 60,2% dalam pengujian BrowseComp, dan 71,3% dalam pengujian SWE-Bench Verified, menunjukkan kemampuan generalisasi yang kuat sebagai model agen berpikir paling canggih.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Kimi K2 Thinking menciptakan rekor baru dalam penilaian standar untuk menilai kemampuan penalaran, pengkodean, dan agen.
Data Jinshi 8 November, menurut situs resmi Shadow of the Moon, Kimi K2 Thinking mencatat rekor baru dalam penilaian standar kemampuan penalaran, pengkodean, dan agen. K2 Thinking meraih skor SOTA sebesar 44,9% dalam penilaian standar HLE, mencapai 60,2% dalam pengujian BrowseComp, dan 71,3% dalam pengujian SWE-Bench Verified, menunjukkan kemampuan generalisasi yang kuat sebagai model agen berpikir paling canggih.