Um modelo de IA importante acabou de invadir as tabelas de referência, estabelecendo novos recordes em múltiplas métricas de avaliação que importam.

A versão mais recente está a arrasar nos testes académicos: 88,2% no GPQA Diamond (questões de ciências ao nível de pós-graduação), 94,5% no AIME 2025 (competição de matemática para escolas secundárias de elite), e impressionantes 96,7% em problemas de Matemática de Harvard-MIT. Também obteve 61,9% no USAMO25, uma das competições de matemática baseadas em provas mais difíceis.

Mas aqui está o ponto crucial – a pontuação do ARC-AGI-2 atingiu 44,4%, o que é quase o dobro do que o modelo em segundo lugar alcançou. Essa é uma diferença enorme nas capacidades de raciocínio.

Este salto de desempenho sugere que estamos a ver um progresso real em raciocínio abstrato e resolução de problemas complexos, não apenas na correspondência de padrões. As pontuações em matemática e lógica são particularmente notáveis, dado como estes benchmarks têm sido resistentes a melhorias.

Vale a pena observar como isso impacta a corrida mais ampla de IA e o que significa para aplicações em pesquisa, programação e tarefas analíticas.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

8 gostos

Recompensa
8
2
Republicar
Partilhar

Comentar

0/400

MemeCurator

· 2h atrás

44,4% de aumento direto, essa diferença é um pouco absurda... --- Mais um novo monstro, problemas matemáticos massacrem, realmente não sei o que mais podemos fazer --- Espera, essa capacidade de raciocínio realmente subiu ou estamos novamente começando a superajustar, estou um pouco preocupado --- As questões de Harvard-MIT conseguiram 96,7, então programação e pesquisa também devem estar explodindo, certo? --- Não, por que o ARC-AGI está pulando tanto sozinho? Sinto que a lógica quebrou alguma nova barreira? --- O benchmark quebrou o recorde novamente, mas realmente consegue fazer o trabalho...? Essas duas coisas parecem nunca estar ligadas.

Ver originalResponder0

MEV_Whisperer

· 2h atrás

arc-agi 44,4% é realmente incrível, esmagando diretamente o segundo lugar, essa diferença de capacidade de raciocínio é um pouco absurda.

Ver originalResponder0

Tópicos em destaqueVer mais
#TopGainersInADownMarket
48.82K Popularidade
#FOMCMeetingMinutesComingUp
43.18K Popularidade
#BitcoinPriceWatch
42.58K Popularidade
#SEC&CFTCResumeOperations
2.96K Popularidade
#GovShutdownOfficiallyEnded
38.38K Popularidade

Gate Fun tendênciaVer mais

1
HOMEHOME
LM:$3.7KTitulares:1
0.00%
2
GGBONDGGB
LM:$3.71KTitulares:1
0.00%
3
芜湖芜湖
LM:$3.71KTitulares:1
0.00%
4
YelanMommy Yelan
LM:$3.7KTitulares:1
0.00%
5
hahahaha
LM:$3.69KTitulares:1
0.00%

Fixar