Um modelo de IA importante acabou de invadir as tabelas de referência, estabelecendo novos recordes em múltiplas métricas de avaliação que importam.
A versão mais recente está a arrasar nos testes académicos: 88,2% no GPQA Diamond (questões de ciências ao nível de pós-graduação), 94,5% no AIME 2025 (competição de matemática para escolas secundárias de elite), e impressionantes 96,7% em problemas de Matemática de Harvard-MIT. Também obteve 61,9% no USAMO25, uma das competições de matemática baseadas em provas mais difíceis.
Mas aqui está o ponto crucial – a pontuação do ARC-AGI-2 atingiu 44,4%, o que é quase o dobro do que o modelo em segundo lugar alcançou. Essa é uma diferença enorme nas capacidades de raciocínio.
Este salto de desempenho sugere que estamos a ver um progresso real em raciocínio abstrato e resolução de problemas complexos, não apenas na correspondência de padrões. As pontuações em matemática e lógica são particularmente notáveis, dado como estes benchmarks têm sido resistentes a melhorias.
Vale a pena observar como isso impacta a corrida mais ampla de IA e o que significa para aplicações em pesquisa, programação e tarefas analíticas.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
8 gostos
Recompensa
8
2
Republicar
Partilhar
Comentar
0/400
MemeCurator
· 2h atrás
44,4% de aumento direto, essa diferença é um pouco absurda...
---
Mais um novo monstro, problemas matemáticos massacrem, realmente não sei o que mais podemos fazer
---
Espera, essa capacidade de raciocínio realmente subiu ou estamos novamente começando a superajustar, estou um pouco preocupado
---
As questões de Harvard-MIT conseguiram 96,7, então programação e pesquisa também devem estar explodindo, certo?
---
Não, por que o ARC-AGI está pulando tanto sozinho? Sinto que a lógica quebrou alguma nova barreira?
---
O benchmark quebrou o recorde novamente, mas realmente consegue fazer o trabalho...? Essas duas coisas parecem nunca estar ligadas.
Ver originalResponder0
MEV_Whisperer
· 2h atrás
arc-agi 44,4% é realmente incrível, esmagando diretamente o segundo lugar, essa diferença de capacidade de raciocínio é um pouco absurda.
Um modelo de IA importante acabou de invadir as tabelas de referência, estabelecendo novos recordes em múltiplas métricas de avaliação que importam.
A versão mais recente está a arrasar nos testes académicos: 88,2% no GPQA Diamond (questões de ciências ao nível de pós-graduação), 94,5% no AIME 2025 (competição de matemática para escolas secundárias de elite), e impressionantes 96,7% em problemas de Matemática de Harvard-MIT. Também obteve 61,9% no USAMO25, uma das competições de matemática baseadas em provas mais difíceis.
Mas aqui está o ponto crucial – a pontuação do ARC-AGI-2 atingiu 44,4%, o que é quase o dobro do que o modelo em segundo lugar alcançou. Essa é uma diferença enorme nas capacidades de raciocínio.
Este salto de desempenho sugere que estamos a ver um progresso real em raciocínio abstrato e resolução de problemas complexos, não apenas na correspondência de padrões. As pontuações em matemática e lógica são particularmente notáveis, dado como estes benchmarks têm sido resistentes a melhorias.
Vale a pena observar como isso impacta a corrida mais ampla de IA e o que significa para aplicações em pesquisa, programação e tarefas analíticas.