Велика модель ШІ тільки що прорвалася на графіки бенчмарків, встановивши нові рекорди за кількома важливими показниками оцінки.
Останнє випуск вражає на академічних іспитах: 88.2% на GPQA Diamond (питаннях з науки на рівні випускників), 94.5% на AIME 2025 (елітному конкурсі з математики для старшокласників), і вражаючі 96.7% на математичних задачах Гарвард-МІТ. Також він набрав 61.9% на USAMO25, одному з найскладніших конкурсів з математики на основі доказів.
Але ось у чому суть – бал ARC-AGI-2 склав 44,4%, що майже вдвічі більше, ніж досяг другий за рейтингом модель. Це величезний розрив у здатностях до міркування.
Цей стрибок у продуктивності свідчить про те, що ми бачимо реальний прогрес у абстрактному мисленні та складному розв'язанні проблем, а не лише у виявленні патернів. Оцінки з математики та логіки особливо помітні, враховуючи те, як ці показники були стійкими до покращення.
Цікаво спостерігати, як це вплине на ширшу гонку в сфері штучного інтелекту та що це означає для застосувань у дослідженнях, програмуванні та аналітичних завданнях.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
8 лайків
Нагородити
8
2
Репост
Поділіться
Прокоментувати
0/400
MemeCurator
· 3год тому
44.4% безпосередньо подвоїти, ця різниця трохи абсурдна...
---
Знову новий монстр, математичні завдання знищують, дійсно не знаю, на що ми ще можемо натиснути
---
Почекайте, ця здатність до логічного мислення дійсно зросла, чи знову почалися проблеми з перенавчанням, трішки хвилююсь
---
Завдання Harvard-MIT можуть отримати 96.7, чи не повинні програмування та наукові дослідження також вибухнути?
---
Ні, чому ARC-AGI так різко стрибає? Відчуття, що логіка прорвала щось нове?
---
Бенчмарк знову побив рекорд, але чи може це справді працювати... ці дві речі, здається, ніколи не пов'язані.
Переглянути оригіналвідповісти на0
MEV_Whisperer
· 3год тому
arc-agi той 44.4% справді вражає, просто розчавлює другого місця, ця різниця в здатності до міркування трохи абсурдна.
Велика модель ШІ тільки що прорвалася на графіки бенчмарків, встановивши нові рекорди за кількома важливими показниками оцінки.
Останнє випуск вражає на академічних іспитах: 88.2% на GPQA Diamond (питаннях з науки на рівні випускників), 94.5% на AIME 2025 (елітному конкурсі з математики для старшокласників), і вражаючі 96.7% на математичних задачах Гарвард-МІТ. Також він набрав 61.9% на USAMO25, одному з найскладніших конкурсів з математики на основі доказів.
Але ось у чому суть – бал ARC-AGI-2 склав 44,4%, що майже вдвічі більше, ніж досяг другий за рейтингом модель. Це величезний розрив у здатностях до міркування.
Цей стрибок у продуктивності свідчить про те, що ми бачимо реальний прогрес у абстрактному мисленні та складному розв'язанні проблем, а не лише у виявленні патернів. Оцінки з математики та логіки особливо помітні, враховуючи те, як ці показники були стійкими до покращення.
Цікаво спостерігати, як це вплине на ширшу гонку в сфері штучного інтелекту та що це означає для застосувань у дослідженнях, програмуванні та аналітичних завданнях.