Escaneie para baixar o app da Gate
qrCode
Mais opções de download
Não me lembre de novo hoje

Um modelo de IA importante acabou de invadir as tabelas de referência, estabelecendo novos recordes em múltiplas métricas de avaliação que importam.



A versão mais recente está a arrasar nos testes académicos: 88,2% no GPQA Diamond (questões de ciências ao nível de pós-graduação), 94,5% no AIME 2025 (competição de matemática para escolas secundárias de elite), e impressionantes 96,7% em problemas de Matemática de Harvard-MIT. Também obteve 61,9% no USAMO25, uma das competições de matemática baseadas em provas mais difíceis.

Mas aqui está o ponto crucial – a pontuação do ARC-AGI-2 atingiu 44,4%, o que é quase o dobro do que o modelo em segundo lugar alcançou. Essa é uma diferença enorme nas capacidades de raciocínio.

Este salto de desempenho sugere que estamos a ver um progresso real em raciocínio abstrato e resolução de problemas complexos, não apenas na correspondência de padrões. As pontuações em matemática e lógica são particularmente notáveis, dado como estes benchmarks têm sido resistentes a melhorias.

Vale a pena observar como isso impacta a corrida mais ampla de IA e o que significa para aplicações em pesquisa, programação e tarefas analíticas.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 2
  • Repostar
  • Compartilhar
Comentário
0/400
MemeCuratorvip
· 3h atrás
44,4% de aumento direto, essa diferença é um pouco absurda... --- Mais um novo monstro, problemas matemáticos massacrem, realmente não sei o que mais podemos fazer --- Espera, essa capacidade de raciocínio realmente subiu ou estamos novamente começando a superajustar, estou um pouco preocupado --- As questões de Harvard-MIT conseguiram 96,7, então programação e pesquisa também devem estar explodindo, certo? --- Não, por que o ARC-AGI está pulando tanto sozinho? Sinto que a lógica quebrou alguma nova barreira? --- O benchmark quebrou o recorde novamente, mas realmente consegue fazer o trabalho...? Essas duas coisas parecem nunca estar ligadas.
Ver originalResponder0
MEV_Whisperervip
· 3h atrás
arc-agi 44,4% é realmente incrível, esmagando diretamente o segundo lugar, essa diferença de capacidade de raciocínio é um pouco absurda.
Ver originalResponder0
  • Em alta na Gate FunVer projetos
  • Cap. de M.:$3.71KHolders:1
    0.00%
  • Cap. de M.:$3.7KHolders:1
    0.00%
  • Cap. de M.:$3.7KHolders:1
    0.00%
  • Cap. de M.:$3.7KHolders:1
    0.00%
  • Cap. de M.:$3.71KHolders:1
    0.00%
  • Marcar
Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)