Finalmente, um benchmark que realmente importa.


Esqueça o MMLU e as pontuações em matemática... PinchBench testa qual modelo de IA é melhor em fazer trabalho real.
Não responder a perguntas triviais. Na verdade, fazer coisas:
→ consultar informações de várias fontes na web
→ criar e agendar reuniões
→ organizar ficheiros no seu computador
→ escrever e gerir emails
Testa modelos a funcionar como agentes através do OpenClaw... o que significa que a IA tem que usar ferramentas, encadear ações e completar tarefas de ponta a ponta.
Os resultados são interessantes:
> Gemini 3 Flash lidera com 95,1%
> MiniMax M2.1 logo atrás com 93,6%
> Kimi K2.5 com 93,4%
> Claude Sonnet com 92,7%
> Gemini 3 Pro com 91,7%
> Claude Haiku com 90,8%
> Claude Opus 4.6 com 90,6%
> GPT-5 Nano com 85,8%
A diferença entre o topo e o final é de apenas ~10%... o que significa que a maioria dos modelos de ponta está a ficar bastante bons em tarefas de agentes.
Mas a verdadeira conclusão? Gemini Flash... um modelo leve... está a superar todos os modelos pesados em trabalho prático de agentes. velocidade + uso de ferramentas > inteligência bruta.
Este é o tipo de benchmark que deve decidir qual modelo usas diariamente... não algum teste académico com que ninguém se identifica.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar