金十データ11月8日付によると、月の暗面公式サイトによると、Kimi K2 Thinkingは推論、コーディング、エージェント能力のベンチマーク評価で新記録を達成しました。K2 ThinkingはHLEベンチマーク評価で44.9%のSOTA成績を収め、BrowseCompテストで60.2%、SWE-Bench Verifiedテストで71.3%を記録し、最先端の思考エージェントモデルとしての強力な汎用性を示しています。
17.09K 人気度
53.01K 人気度
253.2K 人気度
12.09K 人気度
5.89K 人気度
Kimi K2 Thinkingは、推論、コーディング、エージェント能力のベンチマーク評価において新記録を樹立しました
金十データ11月8日付によると、月の暗面公式サイトによると、Kimi K2 Thinkingは推論、コーディング、エージェント能力のベンチマーク評価で新記録を達成しました。K2 ThinkingはHLEベンチマーク評価で44.9%のSOTA成績を収め、BrowseCompテストで60.2%、SWE-Bench Verifiedテストで71.3%を記録し、最先端の思考エージェントモデルとしての強力な汎用性を示しています。