Mặc dù tôi cho rằng điều này không hoàn toàn phản ánh những gì các mô hình tiên tiến có thể thực sự làm. Quan điểm của tôi? Cả r1 và các biến thể GPT mã nguồn mở đều tụt lại *rất nhiều* so với các phiên bản Claude mới hơn khi nói đến việc xử lý những nhiệm vụ cụ thể này. Khoảng cách về hiệu suất rõ ràng hơn so với những gì người ta có thể mong đợi—đặc biệt trong các tình huống lý luận tinh vi. Chúng ta đang chứng kiến một sự phân kỳ thực sự trong các đường cong khả năng ở đây.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
8 thích
Phần thưởng
8
4
Đăng lại
Retweed
Bình luận
0/400
OnchainDetective
· 4giờ trước
Không đồng ý lắm, Claude lần này thực sự mạnh, nhưng khả năng suy luận của R1 có lẽ bị đánh giá thấp.
Xem bản gốcTrả lời0
MidnightTrader
· 4giờ trước
nah claude thật sự đánh bại những cái khác, bộ bẫy r1 đó hoàn toàn là sự tán dương thái quá.
Xem bản gốcTrả lời0
NFTFreezer
· 4giờ trước
nah claude thực sự tuyệt, bộ bẫy r1 đó nói thật là có hơi bị thổi phồng.
Xem bản gốcTrả lời0
LuckyHashValue
· 4giờ trước
nah claude thật sự nghiền nát, bộ bẫy r1 đó có chút bị thổi phồng quá mức.
Công việc tuyệt vời trên nghiên cứu này!
Mặc dù tôi cho rằng điều này không hoàn toàn phản ánh những gì các mô hình tiên tiến có thể thực sự làm. Quan điểm của tôi? Cả r1 và các biến thể GPT mã nguồn mở đều tụt lại *rất nhiều* so với các phiên bản Claude mới hơn khi nói đến việc xử lý những nhiệm vụ cụ thể này. Khoảng cách về hiệu suất rõ ràng hơn so với những gì người ta có thể mong đợi—đặc biệt trong các tình huống lý luận tinh vi. Chúng ta đang chứng kiến một sự phân kỳ thực sự trong các đường cong khả năng ở đây.