Büyük bir AI modeli, önemli olan birden fazla değerlendirme ölçütünde yeni rekorlar kırarak benchmark grafiklerini alt üst etti.

Son sürüm akademik testlerde müthiş bir başarı gösteriyor: GPQA Diamond (lisans düzeyi bilim sorularında %88.2, AIME 2025 )elit lise matematik yarışmasında %94.5 ve Harvard-MIT Matematik problemlerinde etkileyici bir %96.7 puan aldı. Ayrıca, en zor kanıta dayalı matematik yarışmalarından biri olan USAMO25'te %61.9 puan aldı.

Ama burası önemli – ARC-AGI-2 puanı %44.4'e ulaştı, bu da ikinci sıradaki modelin elde ettiğinden neredeyse iki kat daha fazla. Bu, akıl yürütme yeteneklerinde büyük bir fark.

Bu performans sıçraması, yalnızca kalıp eşleştirme değil, soyut akıl yürütme ve karmaşık problem çözmede gerçek bir ilerleme kaydettiğimizi gösteriyor. Matematik ve mantık puanları, bu ölçütlerin iyileşmeye karşı dirençli olduğu göz önüne alındığında özellikle dikkat çekici.

Bunun daha geniş AI yarışını nasıl etkilediğini ve araştırma, kodlama ve analitik görevlerdeki uygulamalar için ne anlama geldiğini izlemeye değer.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

8 Likes

Reward
8
2
Repost
Share

Comment

0/400

MemeCurator

· 3h ago

%44.4 doğrudan iki katına çıktı, bu fark biraz abartılı... --- Yeni bir canavar daha geldi, matematik soruları tecavüz ediyor, gerçekten neyi daha fazla yapabiliriz bilmiyorum --- Bekle, bu çıkarım yeteneği gerçekten mi arttı yoksa tekrar aşırı uyum mu sağladı, biraz endişeliyim --- Harvard-MIT sorularını %96.7 ile geçebiliyorsak, programlama ve araştırma da patlama yapmalı değil mi --- Hayır, neden ARC-AGI ayrı olarak bu kadar hızlı yükseliyor? Mantık gerçekten yeni bir şey mi keşfetti? --- Benchmark yine rekor kırdı ama gerçekten işe yarar mı... bu iki şeyin asla bağlantılı olmadığını düşünüyorum

View OriginalReply0

MEV_Whisperer

· 3h ago

arc-agi'nin %44,4'lük oranı gerçekten harika, doğrudan ikinciyi ezdi, bu çıkarım yeteneği farkı biraz abartılı.

View OriginalReply0

Trending TopicsView More
#TopGainersInADownMarket
54.08K Popularity
#FOMCMeetingMinutesComingUp
47.42K Popularity
#BitcoinPriceWatch
46.4K Popularity
#MySuggestionsforGateSquare
11.41K Popularity
#GateChristmasGiveaway
2.63K Popularity

Hot Gate FunView More

1
ABBABB
MC:$3.7KHolders:1
0.00%
2
ABCABC
MC:$3.7KHolders:1
0.00%
3
HOMEHOME
MC:$3.7KHolders:1
0.00%
4
GGBONDGGB
MC:$3.71KHolders:1
0.00%
5
芜湖芜湖
MC:$3.71KHolders:1
0.00%

Sitemap