Велика модель ШІ тільки що прорвалася на графіки бенчмарків, встановивши нові рекорди за кількома важливими показниками оцінки.

Останнє випуск вражає на академічних іспитах: 88.2% на GPQA Diamond (питаннях з науки на рівні випускників), 94.5% на AIME 2025 (елітному конкурсі з математики для старшокласників), і вражаючі 96.7% на математичних задачах Гарвард-МІТ. Також він набрав 61.9% на USAMO25, одному з найскладніших конкурсів з математики на основі доказів.

Але ось у чому суть – бал ARC-AGI-2 склав 44,4%, що майже вдвічі більше, ніж досяг другий за рейтингом модель. Це величезний розрив у здатностях до міркування.

Цей стрибок у продуктивності свідчить про те, що ми бачимо реальний прогрес у абстрактному мисленні та складному розв'язанні проблем, а не лише у виявленні патернів. Оцінки з математики та логіки особливо помітні, враховуючи те, як ці показники були стійкими до покращення.

Цікаво спостерігати, як це вплине на ширшу гонку в сфері штучного інтелекту та що це означає для застосувань у дослідженнях, програмуванні та аналітичних завданнях.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

8 лайків

Нагородити
8
2
Репост
Поділіться

Прокоментувати

0/400

MemeCurator

· 3год тому

44.4% безпосередньо подвоїти, ця різниця трохи абсурдна... --- Знову новий монстр, математичні завдання знищують, дійсно не знаю, на що ми ще можемо натиснути --- Почекайте, ця здатність до логічного мислення дійсно зросла, чи знову почалися проблеми з перенавчанням, трішки хвилююсь --- Завдання Harvard-MIT можуть отримати 96.7, чи не повинні програмування та наукові дослідження також вибухнути? --- Ні, чому ARC-AGI так різко стрибає? Відчуття, що логіка прорвала щось нове? --- Бенчмарк знову побив рекорд, але чи може це справді працювати... ці дві речі, здається, ніколи не пов'язані.

Переглянути оригіналвідповісти на0

MEV_Whisperer