Büyük bir AI modeli, önemli olan birden fazla değerlendirme ölçütünde yeni rekorlar kırarak benchmark grafiklerini alt üst etti.
Son sürüm akademik testlerde müthiş bir başarı gösteriyor: GPQA Diamond (lisans düzeyi bilim sorularında %88.2, AIME 2025 )elit lise matematik yarışmasında %94.5 ve Harvard-MIT Matematik problemlerinde etkileyici bir %96.7 puan aldı. Ayrıca, en zor kanıta dayalı matematik yarışmalarından biri olan USAMO25'te %61.9 puan aldı.
Ama burası önemli – ARC-AGI-2 puanı %44.4'e ulaştı, bu da ikinci sıradaki modelin elde ettiğinden neredeyse iki kat daha fazla. Bu, akıl yürütme yeteneklerinde büyük bir fark.
Bu performans sıçraması, yalnızca kalıp eşleştirme değil, soyut akıl yürütme ve karmaşık problem çözmede gerçek bir ilerleme kaydettiğimizi gösteriyor. Matematik ve mantık puanları, bu ölçütlerin iyileşmeye karşı dirençli olduğu göz önüne alındığında özellikle dikkat çekici.
Bunun daha geniş AI yarışını nasıl etkilediğini ve araştırma, kodlama ve analitik görevlerdeki uygulamalar için ne anlama geldiğini izlemeye değer.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
8 Likes
Reward
8
2
Repost
Share
Comment
0/400
MemeCurator
· 3h ago
%44.4 doğrudan iki katına çıktı, bu fark biraz abartılı...
---
Yeni bir canavar daha geldi, matematik soruları tecavüz ediyor, gerçekten neyi daha fazla yapabiliriz bilmiyorum
---
Bekle, bu çıkarım yeteneği gerçekten mi arttı yoksa tekrar aşırı uyum mu sağladı, biraz endişeliyim
---
Harvard-MIT sorularını %96.7 ile geçebiliyorsak, programlama ve araştırma da patlama yapmalı değil mi
---
Hayır, neden ARC-AGI ayrı olarak bu kadar hızlı yükseliyor? Mantık gerçekten yeni bir şey mi keşfetti?
---
Benchmark yine rekor kırdı ama gerçekten işe yarar mı... bu iki şeyin asla bağlantılı olmadığını düşünüyorum
View OriginalReply0
MEV_Whisperer
· 3h ago
arc-agi'nin %44,4'lük oranı gerçekten harika, doğrudan ikinciyi ezdi, bu çıkarım yeteneği farkı biraz abartılı.
Büyük bir AI modeli, önemli olan birden fazla değerlendirme ölçütünde yeni rekorlar kırarak benchmark grafiklerini alt üst etti.
Son sürüm akademik testlerde müthiş bir başarı gösteriyor: GPQA Diamond (lisans düzeyi bilim sorularında %88.2, AIME 2025 )elit lise matematik yarışmasında %94.5 ve Harvard-MIT Matematik problemlerinde etkileyici bir %96.7 puan aldı. Ayrıca, en zor kanıta dayalı matematik yarışmalarından biri olan USAMO25'te %61.9 puan aldı.
Ama burası önemli – ARC-AGI-2 puanı %44.4'e ulaştı, bu da ikinci sıradaki modelin elde ettiğinden neredeyse iki kat daha fazla. Bu, akıl yürütme yeteneklerinde büyük bir fark.
Bu performans sıçraması, yalnızca kalıp eşleştirme değil, soyut akıl yürütme ve karmaşık problem çözmede gerçek bir ilerleme kaydettiğimizi gösteriyor. Matematik ve mantık puanları, bu ölçütlerin iyileşmeye karşı dirençli olduğu göz önüne alındığında özellikle dikkat çekici.
Bunun daha geniş AI yarışını nasıl etkilediğini ve araştırma, kodlama ve analitik görevlerdeki uygulamalar için ne anlama geldiğini izlemeye değer.