Scannez pour télécharger l’application Gate
qrCode
Autres options de téléchargement
Ne pas rappeler aujourd’hui

Un modèle d'IA majeur vient de s'emparer des tableaux de référence, établissant de nouveaux records dans plusieurs métriques d'évaluation qui comptent.



La dernière version cartonne lors des tests académiques : 88,2 % sur les questions de science de niveau universitaire GPQA Diamond (, 94,5 % sur AIME 2025 ), une compétition mathématique d'élite pour les lycéens, et un impressionnant 96,7 % sur les problèmes de mathématiques Harvard-MIT. Elle a également obtenu 61,9 % sur USAMO25, l'une des compétitions de mathématiques basées sur des preuves les plus difficiles.

Mais voici le point crucial : le score ARC-AGI-2 a atteint 44,4 %, ce qui est presque le double de ce que le modèle en deuxième place a réalisé. C'est un écart énorme dans les capacités de raisonnement.

Cette avancée en performance suggère que nous voyons de réels progrès dans le raisonnement abstrait et la résolution de problèmes complexes, et pas seulement dans la reconnaissance de motifs. Les scores en mathématiques et en logique sont particulièrement notables étant donné à quel point ces références ont été résistantes à l'amélioration.

Il vaut la peine de regarder comment cela impacte la course à l'IA en général et ce que cela signifie pour les applications dans la recherche, le codage et les tâches analytiques.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 2
  • Reposter
  • Partager
Commentaire
0/400
MemeCuratorvip
· Il y a 3h
44.4% directement doublé, cet écart est un peu absurde... --- Encore un nouveau monstre, des problèmes mathématiques qui tuent, je ne sais vraiment pas ce que nous pouvons encore faire --- Attendez, cette capacité de raisonnement a-t-elle vraiment augmenté ou est-ce qu'elle commence à surajuster encore, je suis un peu inquiet --- Les questions de Harvard-MIT peuvent atteindre 96.7, alors la programmation et la recherche vont-elles aussi exploser ? --- Non, pourquoi ARC-AGI jump si violemment tout seul ? J'ai l'impression que la logique a franchi quelque chose de nouveau ? --- Le benchmark a encore battu des records, mais peut-il vraiment travailler... ces deux choses semblent ne jamais être liées.
Voir l'originalRépondre0
MEV_Whisperervip
· Il y a 3h
arc-agi a vraiment 44,4%, c'est incroyable, ça écrase directement le deuxième, cette différence de capacité de raisonnement est un peu absurde.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)