Um modelo de IA importante acabou de invadir as tabelas de referência, estabelecendo novos recordes em múltiplas métricas de avaliação que importam.

A versão mais recente está a arrasar nos testes académicos: 88,2% no GPQA Diamond (questões de ciências ao nível de pós-graduação), 94,5% no AIME 2025 (competição de matemática para escolas secundárias de elite), e impressionantes 96,7% em problemas de Matemática de Harvard-MIT. Também obteve 61,9% no USAMO25, uma das competições de matemática baseadas em provas mais difíceis.

Mas aqui está o ponto crucial – a pontuação do ARC-AGI-2 atingiu 44,4%, o que é quase o dobro do que o modelo em segundo lugar alcançou. Essa é uma diferença enorme nas capacidades de raciocínio.

Este salto de desempenho sugere que estamos a ver um progresso real em raciocínio abstrato e resolução de problemas complexos, não apenas na correspondência de padrões. As pontuações em matemática e lógica são particularmente notáveis, dado como estes benchmarks têm sido resistentes a melhorias.

Vale a pena observar como isso impacta a corrida mais ampla de IA e o que significa para aplicações em pesquisa, programação e tarefas analíticas.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

8 Curtidas

Recompensa
8
2
Repostar
Compartilhar

Comentário

0/400

MemeCurator

· 3h atrás

44,4% de aumento direto, essa diferença é um pouco absurda... --- Mais um novo monstro, problemas matemáticos massacrem, realmente não sei o que mais podemos fazer --- Espera, essa capacidade de raciocínio realmente subiu ou estamos novamente começando a superajustar, estou um pouco preocupado --- As questões de Harvard-MIT conseguiram 96,7, então programação e pesquisa também devem estar explodindo, certo? --- Não, por que o ARC-AGI está pulando tanto sozinho? Sinto que a lógica quebrou alguma nova barreira? --- O benchmark quebrou o recorde novamente, mas realmente consegue fazer o trabalho...? Essas duas coisas parecem nunca estar ligadas.

Ver originalResponder0

MEV_Whisperer