Отсканируйте, чтобы загрузить приложение Gate
qrCode
Больше вариантов загрузки
Не напоминай мне больше сегодня.

Крупная модель ИИ только что резко поднялась в рейтингах, установив новые рекорды по нескольким важным оценочным метрикам.



Последний релиз показывает отличные результаты на академических тестах: 88,2% на GPQA Diamond (вопросах по науке уровня магистратуры), 94,5% на AIME 2025 (элитном математическом соревновании среди старших классов) и впечатляющие 96,7% на математических задачах Гарварда и MIT. Также он набрал 61,9% на USAMO25, одном из самых сложных математических соревнований на основе доказательств.

Но вот в чем дело – балл ARC-AGI-2 составил 44.4%, что почти в два раза больше, чем у модели, занявшей второе место. Это колоссальная разница в способностях к рассуждению.

Этот скачок в производительности говорит о том, что мы наблюдаем реальные успехи в абстрактном мышлении и решении сложных задач, а не только в распознавании шаблонов. Особенно примечательны оценки по математике и логике, учитывая, что эти критерии устойчивы к улучшениям.

Стоит посмотреть, как это повлияет на более широкую гонку ИИ и что это означает для применения в исследованиях, программировании и аналитических задачах.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 2
  • Репост
  • Поделиться
комментарий
0/400
MemeCuratorvip
· 3ч назад
44.4% напрямую удваивается, эта разница немного нелепа... --- Опять пришел новый монстр, математическая задача безжалостна, действительно не знаю, что мы еще можем сделать --- Подождите, эта способность к рассуждению действительно возросла или снова началось переобучение, немного беспокоюсь --- Задачи Harvard-MIT могут набирать 96.7, так что программирование и научные исследования тоже должны взорваться? --- Нет, почему ARC-AGI так резко прыгает? Кажется, логика преодолела что-то новое? --- Бenchmark снова побил рекорд, но действительно ли он может работать... эти две вещи, похоже, никогда не связаны.
Посмотреть ОригиналОтветить0
MEV_Whisperervip
· 3ч назад
arc-agi 44,4% действительно впечатляет, он просто разбивает второго места, разница в способности к рассуждению немного абсурдна.
Посмотреть ОригиналОтветить0
  • Закрепить