Un modèle d'IA majeur vient de s'emparer des tableaux de référence, établissant de nouveaux records dans plusieurs métriques d'évaluation qui comptent.

La dernière version cartonne lors des tests académiques : 88,2 % sur les questions de science de niveau universitaire GPQA Diamond (, 94,5 % sur AIME 2025 ), une compétition mathématique d'élite pour les lycéens, et un impressionnant 96,7 % sur les problèmes de mathématiques Harvard-MIT. Elle a également obtenu 61,9 % sur USAMO25, l'une des compétitions de mathématiques basées sur des preuves les plus difficiles.

Mais voici le point crucial : le score ARC-AGI-2 a atteint 44,4 %, ce qui est presque le double de ce que le modèle en deuxième place a réalisé. C'est un écart énorme dans les capacités de raisonnement.

Cette avancée en performance suggère que nous voyons de réels progrès dans le raisonnement abstrait et la résolution de problèmes complexes, et pas seulement dans la reconnaissance de motifs. Les scores en mathématiques et en logique sont particulièrement notables étant donné à quel point ces références ont été résistantes à l'amélioration.

Il vaut la peine de regarder comment cela impacte la course à l'IA en général et ce que cela signifie pour les applications dans la recherche, le codage et les tâches analytiques.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

8 J'aime

Récompense
8
2
Reposter
Partager

Commentaire

0/400

MemeCurator

· Il y a 3h

44.4% directement doublé, cet écart est un peu absurde... --- Encore un nouveau monstre, des problèmes mathématiques qui tuent, je ne sais vraiment pas ce que nous pouvons encore faire --- Attendez, cette capacité de raisonnement a-t-elle vraiment augmenté ou est-ce qu'elle commence à surajuster encore, je suis un peu inquiet --- Les questions de Harvard-MIT peuvent atteindre 96.7, alors la programmation et la recherche vont-elles aussi exploser ? --- Non, pourquoi ARC-AGI jump si violemment tout seul ? J'ai l'impression que la logique a franchi quelque chose de nouveau ? --- Le benchmark a encore battu des records, mais peut-il vraiment travailler... ces deux choses semblent ne jamais être liées.

Voir l'originalRépondre0

MEV_Whisperer

· Il y a 3h

arc-agi a vraiment 44,4%, c'est incroyable, ça écrase directement le deuxième, cette différence de capacité de raisonnement est un peu absurde.

Voir l'originalRépondre0

Sujets populairesAfficher plus
#TopGainersInADownMarket
54.08K Popularité
#FOMCMeetingMinutesComingUp
47.42K Popularité
#BitcoinPriceWatch
46.4K Popularité
#MySuggestionsforGateSquare
11.41K Popularité
#GateChristmasGiveaway
2.63K Popularité

Hot Gate FunAfficher plus

1
ABBABB
MC:$3.7KDétenteurs:1
0.00%
2
ABCABC
MC:$3.7KDétenteurs:1
0.00%
3
HOMEHOME
MC:$3.7KDétenteurs:1
0.00%
4
GGBONDGGB
MC:$3.71KDétenteurs:1
0.00%
5
芜湖芜湖
MC:$3.71KDétenteurs:1
0.00%

Épingler