Một mô hình AI lớn vừa bùng nổ trên bảng xếp hạng chuẩn, thiết lập những kỷ lục mới trên nhiều tiêu chí đánh giá quan trọng.
Phiên bản mới nhất đang đạt điểm cao trong các bài kiểm tra học thuật: 88,2% trên GPQA Diamond (các câu hỏi khoa học cấp đại học), 94,5% trên AIME 2025 (cuộc thi toán học trung học phổ thông xuất sắc), và ấn tượng 96,7% trên các bài toán Harvard-MIT. Nó cũng đạt 61,9% trên USAMO25, một trong những cuộc thi toán học dựa trên chứng minh khó nhất.
Nhưng đây là điểm đáng chú ý – điểm ARC-AGI-2 đạt 44.4%, gần gấp đôi so với mô hình đứng thứ hai. Đó là một khoảng cách lớn về k
Xem bản gốc