Крупная модель ИИ только что резко поднялась в рейтингах, установив новые рекорды по нескольким важным оценочным метрикам.

Последний релиз показывает отличные результаты на академических тестах: 88,2% на GPQA Diamond (вопросах по науке уровня магистратуры), 94,5% на AIME 2025 (элитном математическом соревновании среди старших классов) и впечатляющие 96,7% на математических задачах Гарварда и MIT. Также он набрал 61,9% на USAMO25, одном из самых сложных математических соревнований на основе доказательств.

Но вот в чем дело – балл ARC-AGI-2 составил 44.4%, что почти в два раза больше, чем у модели, занявшей второе место. Это колоссальная разница в способностях к рассуждению.

Этот скачок в производительности говорит о том, что мы наблюдаем реальные успехи в абстрактном мышлении и решении сложных задач, а не только в распознавании шаблонов. Особенно примечательны оценки по математике и логике, учитывая, что эти критерии устойчивы к улучшениям.

Стоит посмотреть, как это повлияет на более широкую гонку ИИ и что это означает для применения в исследованиях, программировании и аналитических задачах.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

8 Лайков

Награда
8
2
Репост
Поделиться

комментарий

0/400

MemeCurator

· 3ч назад

44.4% напрямую удваивается, эта разница немного нелепа... --- Опять пришел новый монстр, математическая задача безжалостна, действительно не знаю, что мы еще можем сделать --- Подождите, эта способность к рассуждению действительно возросла или снова началось переобучение, немного беспокоюсь --- Задачи Harvard-MIT могут набирать 96.7, так что программирование и научные исследования тоже должны взорваться? --- Нет, почему ARC-AGI так резко прыгает? Кажется, логика преодолела что-то новое? --- Бenchmark снова побил рекорд, но действительно ли он может работать... эти две вещи, похоже, никогда не связаны.

Посмотреть ОригиналОтветить0

MEV_Whisperer