Một mô hình AI lớn vừa bùng nổ trên bảng xếp hạng chuẩn, thiết lập những kỷ lục mới trên nhiều tiêu chí đánh giá quan trọng.

Phiên bản mới nhất đang đạt điểm cao trong các bài kiểm tra học thuật: 88,2% trên GPQA Diamond (các câu hỏi khoa học cấp đại học), 94,5% trên AIME 2025 (cuộc thi toán học trung học phổ thông xuất sắc), và ấn tượng 96,7% trên các bài toán Harvard-MIT. Nó cũng đạt 61,9% trên USAMO25, một trong những cuộc thi toán học dựa trên chứng minh khó nhất.

Nhưng đây là điểm đáng chú ý – điểm ARC-AGI-2 đạt 44.4%, gần gấp đôi so với mô hình đứng thứ hai. Đó là một khoảng cách lớn về khả năng lý luận.

Bước nhảy hiệu suất này gợi ý rằng chúng ta đang thấy sự tiến bộ thực sự trong tư duy trừu tượng và giải quyết vấn đề phức tạp, không chỉ đơn thuần là nhận diện mẫu. Điểm số toán học và logic là đặc biệt đáng chú ý, xét đến việc các tiêu chuẩn này đã kháng cự với sự cải thiện.

Đáng xem cách điều này ảnh hưởng đến cuộc đua AI rộng lớn hơn và điều đó có nghĩa là gì cho các ứng dụng trong nghiên cứu, lập trình và các nhiệm vụ phân tích.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

8 thích

Phần thưởng
8
2
Đăng lại
Retweed

Bình luận

0/400

MemeCurator

· 3giờ trước

44.4% trực tiếp gấp đôi, sự chênh lệch này có chút phi lý... --- Lại có quái vật mới, bài toán toán học hành hạ, thật không biết chúng ta còn có thể cạnh tranh gì nữa --- Chờ đã, khả năng suy luận này thực sự đã tăng lên hay lại bắt đầu quá khớp rồi, có chút lo lắng --- Câu hỏi của Harvard-MIT có thể đạt 96.7, vậy lập trình và nghiên cứu có phải cũng sẽ bùng nổ theo không --- Không phải, sao ARC-AGI lại nhảy vọt mạnh như vậy? Cảm giác như logic đã phá vỡ điều gì mới? --- benchmark lại phá kỷ lục, nhưng thật sự có thể làm việc không... hai chuyện này hình như không bao giờ liên kết với nhau.

Xem bản gốcTrả lời0

MEV_Whisperer