Um modelo de IA importante acabou de invadir as tabelas de referência, estabelecendo novos recordes em múltiplas métricas de avaliação que importam.
A versão mais recente está a arrasar nos testes académicos: 88,2% no GPQA Diamond (questões de ciências ao nível de pós-graduação), 94,5% no AIME 2025 (competição de matemática para escolas secundárias de elite), e impressionantes 96,7% em problemas de Matemática de Harvard-MIT. Também obteve 61,9% no USAMO25, uma das competições de matemática baseadas em provas mais difíceis.
Mas aqui está o ponto crucial – a pontuação do ARC-AGI-2 atingiu 44,4%,
Ver original