Скануйте, щоб завантажити додаток Gate
qrCode
Більше варіантів завантаження
Не нагадувати сьогодні

Велика модель ШІ тільки що прорвалася на графіки бенчмарків, встановивши нові рекорди за кількома важливими показниками оцінки.



Останнє випуск вражає на академічних іспитах: 88.2% на GPQA Diamond (питаннях з науки на рівні випускників), 94.5% на AIME 2025 (елітному конкурсі з математики для старшокласників), і вражаючі 96.7% на математичних задачах Гарвард-МІТ. Також він набрав 61.9% на USAMO25, одному з найскладніших конкурсів з математики на основі доказів.

Але ось у чому суть – бал ARC-AGI-2 склав 44,4%, що майже вдвічі більше, ніж досяг другий за рейтингом модель. Це величезний розрив у здатностях до міркування.

Цей стрибок у продуктивності свідчить про те, що ми бачимо реальний прогрес у абстрактному мисленні та складному розв'язанні проблем, а не лише у виявленні патернів. Оцінки з математики та логіки особливо помітні, враховуючи те, як ці показники були стійкими до покращення.

Цікаво спостерігати, як це вплине на ширшу гонку в сфері штучного інтелекту та що це означає для застосувань у дослідженнях, програмуванні та аналітичних завданнях.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 2
  • Репост
  • Поділіться
Прокоментувати
0/400
MemeCuratorvip
· 3год тому
44.4% безпосередньо подвоїти, ця різниця трохи абсурдна... --- Знову новий монстр, математичні завдання знищують, дійсно не знаю, на що ми ще можемо натиснути --- Почекайте, ця здатність до логічного мислення дійсно зросла, чи знову почалися проблеми з перенавчанням, трішки хвилююсь --- Завдання Harvard-MIT можуть отримати 96.7, чи не повинні програмування та наукові дослідження також вибухнути? --- Ні, чому ARC-AGI так різко стрибає? Відчуття, що логіка прорвала щось нове? --- Бенчмарк знову побив рекорд, але чи може це справді працювати... ці дві речі, здається, ніколи не пов'язані.
Переглянути оригіналвідповісти на0
MEV_Whisperervip
· 3год тому
arc-agi той 44.4% справді вражає, просто розчавлює другого місця, ця різниця в здатності до міркування трохи абсурдна.
Переглянути оригіналвідповісти на0
  • Популярні активності Gate FunДізнатися більше
  • Рин. кап.:$3.7KХолдери:1
    0.00%
  • Рин. кап.:$3.7KХолдери:1
    0.00%
  • Рин. кап.:$3.7KХолдери:1
    0.00%
  • Рин. кап.:$3.71KХолдери:1
    0.00%
  • Рин. кап.:$3.71KХолдери:1
    0.00%
  • Закріпити