Un modelo de IA importante acaba de arrasar en las listas de referencia, estableciendo nuevos récords en múltiples métricas de evaluación que importan.
La última versión está arrasando en las pruebas académicas: 88.2% en GPQA Diamond (preguntas de ciencia a nivel de posgrado), 94.5% en AIME 2025 (competencia de matemáticas de secundaria elite), y un impresionante 96.7% en problemas de matemáticas de Harvard-MIT. También obtuvo 61.9% en USAMO25, una de las competiciones de matemáticas basadas en pruebas más difíciles.
Pero aquí está lo sorprendente: la puntuación ARC-AGI-2 alcanzó el 44.4%, que es casi el doble de lo que logró el modelo en segundo lugar. Esa es una brecha enorme en las capacidades de razonamiento.
Este salto en el rendimiento sugiere que estamos viendo un progreso real en el razonamiento abstracto y la resolución de problemas complejos, no solo en el reconocimiento de patrones. Las puntuaciones en matemáticas y lógica son particularmente notables dado que estos indicadores han sido resistentes a la mejora.
Vale la pena observar cómo esto impacta la carrera más amplia de la IA y lo que significa para las aplicaciones en investigación, codificación y tareas analíticas.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
8 me gusta
Recompensa
8
2
Republicar
Compartir
Comentar
0/400
MemeCurator
· hace3h
¡44.4% directamente duplicado, esta diferencia es un poco absurda...
---
Ya viene un nuevo monstruo, problemas matemáticos que destruyen, realmente no sé qué más podremos hacer
---
Espera, ¿realmente ha subido esta capacidad de razonamiento o está empezando a sobreajustarse de nuevo? Estoy un poco preocupado
---
Los problemas de Harvard-MIT pueden alcanzar el 96.7, entonces, ¿la programación y la investigación también van a explotar?
---
No, ¿por qué ARC-AGI salta tan fuerte por sí solo? ¿Siento que ha habido un nuevo avance lógico?
---
El benchmark ha roto récords nuevamente, pero ¿realmente puede trabajar? ... Estas dos cosas parecen nunca estar conectadas.
Ver originalesResponder0
MEV_Whisperer
· hace3h
arc-agi con un 44.4% es realmente impresionante, aplastando directamente al segundo lugar, la diferencia en la capacidad de razonamiento es un poco absurda.
Un modelo de IA importante acaba de arrasar en las listas de referencia, estableciendo nuevos récords en múltiples métricas de evaluación que importan.
La última versión está arrasando en las pruebas académicas: 88.2% en GPQA Diamond (preguntas de ciencia a nivel de posgrado), 94.5% en AIME 2025 (competencia de matemáticas de secundaria elite), y un impresionante 96.7% en problemas de matemáticas de Harvard-MIT. También obtuvo 61.9% en USAMO25, una de las competiciones de matemáticas basadas en pruebas más difíciles.
Pero aquí está lo sorprendente: la puntuación ARC-AGI-2 alcanzó el 44.4%, que es casi el doble de lo que logró el modelo en segundo lugar. Esa es una brecha enorme en las capacidades de razonamiento.
Este salto en el rendimiento sugiere que estamos viendo un progreso real en el razonamiento abstracto y la resolución de problemas complejos, no solo en el reconocimiento de patrones. Las puntuaciones en matemáticas y lógica son particularmente notables dado que estos indicadores han sido resistentes a la mejora.
Vale la pena observar cómo esto impacta la carrera más amplia de la IA y lo que significa para las aplicaciones en investigación, codificación y tareas analíticas.