Anthropic giới thiệu Claude Sonnet 4.6, mang lại hiệu suất gần như tác phẩm lớn và khả năng mở rộng ngữ cảnh dài hơn

Tóm tắt ngắn gọn

Claude Sonnet 4.6 của Anthropic giới thiệu một nâng cấp lớn mang lại hiệu suất gần như Opus, khả năng lập trình và sử dụng máy tính mạnh mẽ hơn, cùng với cửa sổ ngữ cảnh một triệu token cho tất cả người dùng với mức giá bằng phiên bản trước đó.

Anthropic Unveils Claude Sonnet 4.6, Delivering Near‑Opus Performance And Expanded Long‑Context Capabilities

Công ty nghiên cứu và an toàn AI Anthropic thông báo đã giới thiệu Claude Sonnet 4.6, được mô tả là mô hình Sonnet mạnh nhất từ trước đến nay. Phiên bản này được xem như một nâng cấp toàn diện về lập trình, sử dụng máy tính, lý luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc kiến thức và thiết kế, với cửa sổ ngữ cảnh một triệu token đang trong giai đoạn thử nghiệm. Đối với người dùng gói Miễn phí và Pro, Sonnet 4.6 trở thành mô hình mặc định tại claude.ai và Claude Cowork, với mức giá không đổi so với Sonnet 4.5.

Bản cập nhật này được định vị như một bước tiến mang hiệu suất cao hơn đến nhiều đối tượng người dùng hơn. Các nhà phát triển thử nghiệm mô hình sớm cho biết, những cải tiến về tính nhất quán, theo hướng dẫn và hiểu biết ngữ cảnh khiến nó trở nên ưu việt không chỉ so với Sonnet 4.5 mà còn, trong nhiều trường hợp, so với mô hình Opus 4.5 tiên tiến hơn của Anthropic từ cuối năm 2025. Các nhiệm vụ trước đây yêu cầu hệ thống loại Opus—đặc biệt là những nhiệm vụ liên quan đến quy trình làm việc văn phòng thực tế—bây giờ có thể thực hiện được với Sonnet 4.6. Công ty cũng nhấn mạnh sự tiến bộ rõ rệt trong khả năng sử dụng máy tính, lĩnh vực mà các mô hình Sonnet trước đó còn hạn chế.

Anthropic nhấn mạnh rằng mô hình đã trải qua các đánh giá an toàn kỹ lưỡng. Các nhà nghiên cứu nội bộ mô tả Sonnet 4.6 thể hiện các hành vi an toàn mạnh mẽ và không có dấu hiệu lớn về sai lệch nguy hiểm, điều này giúp công ty củng cố vị thế của mình về phát triển AI có trách nhiệm.

Các cuộc thảo luận về khả năng sử dụng máy tính phản ánh một luận điểm rộng hơn về giá trị của các hệ thống AI có thể vận hành phần mềm trực tiếp thay vì qua API. Anthropic lưu ý rằng nhiều tổ chức dựa vào các công cụ cũ không thể tự động hóa dễ dàng, và một mô hình có khả năng tương tác với máy tính như con người có thể giảm thiểu nhu cầu tích hợp tùy chỉnh.

Các bài kiểm tra tiêu chuẩn như OSWorld, mô phỏng môi trường phần mềm thực tế, cho thấy sự tiến bộ đều đặn trong suốt mười sáu tháng phát triển Sonnet. Người dùng sớm của Sonnet 4.6 cho biết mô hình hiện có thể xử lý các nhiệm vụ như điều hướng bảng tính phức tạp hoặc hoàn thành các biểu mẫu web nhiều bước với mức độ gần như con người, dù vẫn còn thua kém các chuyên gia. Đồng thời, công ty thừa nhận các rủi ro như tấn công chèn lệnh và tuyên bố khả năng chống chịu đã được cải thiện so với các phiên bản trước.

Sonnet 4.6 Nâng cao Chất lượng Mã, Lý luận và Sử dụng Công cụ

Ngoài khả năng sử dụng máy tính, Anthropic báo cáo các cải tiến toàn diện trên các bài kiểm tra tiêu chuẩn. Trong Claude Code, người dùng thích Sonnet 4.6 hơn Sonnet 4.5 trong hầu hết các bài kiểm tra, nhấn mạnh khả năng đọc hiểu ngữ cảnh tốt hơn, giảm trùng lặp và thực thi nhiều bước đáng tin cậy hơn. Nhiều người cũng ưa thích nó hơn Opus 4.5, mô tả là ít dễ bị quá mức trong thiết kế và theo dõi hướng dẫn nhất quán hơn. Cửa sổ ngữ cảnh mở rộng cho phép mô hình làm việc trên toàn bộ mã nguồn hoặc các bộ sưu tập nghiên cứu lớn, và Anthropic nhấn mạnh hiệu suất của nó trong mô phỏng Vending‑Bench Arena, nơi mô hình đã áp dụng chiến lược đầu tư dài hạn vượt trội so với các đối thủ.

Công ty lưu ý rằng khách hàng ban đầu đã thấy những cải tiến trong các lĩnh vực như phát triển giao diện người dùng, phân tích tài chính và chất lượng thiết kế trực quan. Sonnet 4.6 cũng đi kèm các cập nhật trên nền tảng nhà phát triển Claude và API, bao gồm các chế độ tư duy thích ứng và mở rộng, nén ngữ cảnh, xử lý tìm kiếm web cải tiến và khả năng sử dụng công cụ mở rộng. Mô hình hiện có sẵn trên tất cả các gói Claude, kể cả gói miễn phí, và có thể truy cập qua Claude Cowork, Claude Code, API và các nền tảng đám mây lớn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim