Ler para transferir a aplicação Gate
qrCode
Mais opções de transferência
Não me lembre disso novamente hoje.

Um modelo de IA importante acabou de invadir as tabelas de referência, estabelecendo novos recordes em múltiplas métricas de avaliação que importam.



A versão mais recente está a arrasar nos testes académicos: 88,2% no GPQA Diamond (questões de ciências ao nível de pós-graduação), 94,5% no AIME 2025 (competição de matemática para escolas secundárias de elite), e impressionantes 96,7% em problemas de Matemática de Harvard-MIT. Também obteve 61,9% no USAMO25, uma das competições de matemática baseadas em provas mais difíceis.

Mas aqui está o ponto crucial – a pontuação do ARC-AGI-2 atingiu 44,4%, o que é quase o dobro do que o modelo em segundo lugar alcançou. Essa é uma diferença enorme nas capacidades de raciocínio.

Este salto de desempenho sugere que estamos a ver um progresso real em raciocínio abstrato e resolução de problemas complexos, não apenas na correspondência de padrões. As pontuações em matemática e lógica são particularmente notáveis, dado como estes benchmarks têm sido resistentes a melhorias.

Vale a pena observar como isso impacta a corrida mais ampla de IA e o que significa para aplicações em pesquisa, programação e tarefas analíticas.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 2
  • Republicar
  • Partilhar
Comentar
0/400
MemeCuratorvip
· 2h atrás
44,4% de aumento direto, essa diferença é um pouco absurda... --- Mais um novo monstro, problemas matemáticos massacrem, realmente não sei o que mais podemos fazer --- Espera, essa capacidade de raciocínio realmente subiu ou estamos novamente começando a superajustar, estou um pouco preocupado --- As questões de Harvard-MIT conseguiram 96,7, então programação e pesquisa também devem estar explodindo, certo? --- Não, por que o ARC-AGI está pulando tanto sozinho? Sinto que a lógica quebrou alguma nova barreira? --- O benchmark quebrou o recorde novamente, mas realmente consegue fazer o trabalho...? Essas duas coisas parecem nunca estar ligadas.
Ver originalResponder0
MEV_Whisperervip
· 2h atrás
arc-agi 44,4% é realmente incrível, esmagando diretamente o segundo lugar, essa diferença de capacidade de raciocínio é um pouco absurda.
Ver originalResponder0
  • Fixar
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)