金十数据 8 novembre : Selon le site officiel de Moon’s Dark Side, Kimi K2 Thinking a établi de nouveaux records lors des évaluations de référence en raisonnement, codage et capacités d’agent. K2 Thinking a obtenu un score SOTA de 44,9 % sur le benchmark HLE, 60,2 % sur le test BrowseComp, et 71,3 % sur le test SWE-Bench Verified, démontrant la forte capacité de généralisation en tant que modèle d’agent de réflexion de pointe.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Kimi K2 Thinking a établi un nouveau record dans l’évaluation standard des capacités de raisonnement, de codage et d’agent.
金十数据 8 novembre : Selon le site officiel de Moon’s Dark Side, Kimi K2 Thinking a établi de nouveaux records lors des évaluations de référence en raisonnement, codage et capacités d’agent. K2 Thinking a obtenu un score SOTA de 44,9 % sur le benchmark HLE, 60,2 % sur le test BrowseComp, et 71,3 % sur le test SWE-Bench Verified, démontrant la forte capacité de généralisation en tant que modèle d’agent de réflexion de pointe.