نموذج ذكاء اصطناعي كبير اجتاح مخططات المعيار، محققًا سجلات جديدة عبر عدة مقاييس تقييم مهمة.

الإصدار الأخير يحقق نجاحًا كبيرًا في الاختبارات الأكاديمية: 88.2% في أسئلة العلوم على مستوى الدراسات العليا GPQA Diamond (، 94.5% في مسابقة الرياضيات عالية المدرسة AIME 2025 )، و 96.7% في مسائل الرياضيات من جامعة هارفارد ومعهد ماساتشوستس للتكنولوجيا. كما حصل على 61.9% في USAMO25، واحدة من أصعب مسابقات الرياضيات المعتمدة على الإثبات.

لكن إليك المفاجأة - سجل ARC-AGI-2 وصل إلى 44.4%، وهو تقريبًا ضعف ما حققه النموذج الذي احتل المركز الثاني. هذه فجوة هائلة في قدرات التفكير.

تشير هذه القفزة في الأداء إلى أننا نشهد تقدمًا حقيقيًا في التفكير المجرد وحل المشكلات المعقدة، وليس مجرد مطابقة الأنماط. تعتبر درجات الرياضيات والمنطق ملحوظة بشكل خاص نظرًا لكيفية مقاومة هذه المعايير للتحسين.

من الجدير بالمشاهدة كيف يؤثر هذا على السباق الأوسع في مجال الذكاء الاصطناعي وما يعنيه ذلك للتطبيقات في البحث والبرمجة والمهام التحليلية.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 8

أعجبني
8
2
إعادة النشر
مشاركة

تعليق

0/400

MemeCurator

· منذ 6 س

44.4% ارتفع مباشرة، هذه الفجوة تبدو غير معقولة... --- جاءت وحوش جديدة، مسائل رياضية تعذب، حقًا لا أعرف ماذا يمكننا أن نفعل بعد الآن --- انتظر، هل حقًا زادت هذه القدرة على الاستنتاج أم أننا بدأنا في الإفراط في التكيف مرة أخرى؟ أشعر بالقلق قليلاً --- أسئلة Harvard-MIT يمكن أن تصل إلى 96.7، هل يعني ذلك أن البرمجة والبحث العلمي ستنفجر أيضًا؟ --- ليس، لماذا ARC-AGI يرتفع بمفرده بهذه القوة؟ أشعر أن المنطق قد تجاوز شيئًا جديدًا؟ --- سجل benchmark تحطيم جديد، لكن هل يمكنه حقًا القيام بالعمل... يبدو أن هذين الأمرين لا يرتبطان أبداً

شاهد النسخة الأصليةرد0

MEV_Whisperer