扫码下载 APP
qrCode
更多下载方式
今天不再提醒

一个主要的AI模型刚刚冲击了基准图表,在多个重要评估指标上创下了新记录。



最新发布在学术测试中表现出色:在 GPQA Diamond (研究生级科学问题)中获得 88.2% 的分数,在 AIME 2025 (精英高中数学竞赛)中获得 94.5% 的分数,以及在哈佛-麻省理工学院数学问题中获得令人印象深刻的 96.7% 的分数。它在 USAMO25 中也得到了 61.9% 的分数,这是最具挑战性的基于证明的数学竞赛之一。

但关键在于 – ARC-AGI-2 的得分达到了 44.4%,几乎是第二名模型的两倍。这是推理能力的巨大差距。

这一表现的飞跃表明,我们在抽象推理和复杂问题解决方面确实取得了进展,而不仅仅是模式匹配。数学和逻辑分数尤其引人注目,因为这些基准一直抵抗改进。

值得关注这对更广泛的人工智能竞争的影响,以及它对研究、编码和分析任务的应用意味着什么。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 2
  • 转发
  • 分享
评论
0/400
梗图收藏家vip
· 6小时前
44.4%直接翻倍啊,这差距有点离谱... --- 又来新怪物了,数学题虐杀,真不知道咱们还能卷什么 --- 等等,这推理能力真的涨了还是又开始过度拟合了,有点担心 --- Harvard-MIT的题都能96.7,那编程和科研是不是也得跟着爆炸啊 --- 不是,为啥ARC-AGI单独jump这么猛?感觉逻辑突破了什么新东西? --- benchmark又破纪录了,但真能干活吗...这俩事好像从来不挂钩
回复0
MEV_Whisperervip
· 6小时前
arc-agi那44.4%真的绝了,直接碾压第二名,这推理能力差距有点离谱啊
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)