Anthropic 發佈 Claude Sonnet 4.6,提供接近大作的性能與擴展的長上下文能力

簡要介紹

Anthropic 的 Claude Sonnet 4.6 引入了一項重大升級,帶來接近 Opus 水平的性能、更強的編碼與電腦操作能力,以及一個百萬詞元的上下文窗口,所有用戶都以與先前版本相同的價格享有此功能。

Anthropic Unveils Claude Sonnet 4.6, Delivering Near‑Opus Performance And Expanded Long‑Context Capabilities

人工智慧安全與研究公司 Anthropic 宣布推出 Claude Sonnet 4.6,並稱其為迄今最強大的 Sonnet 模型。此次發布被描述為在編碼、電腦操作、長上下文推理、代理規劃、知識工作與設計方面的全面升級,並在測試階段提供一個百萬詞元的上下文窗口。對於使用免費和專業方案的用戶,Sonnet 4.6 在 claude.ai 和 Claude Cowork 中成為預設模型,價格與 Sonnet 4.5 相同。

此次更新被定位為一個讓更廣泛用戶群體享受高端性能的步伐。早期測試該模型的開發者反映,模型在一致性、指令遵循和上下文理解方面的改進,使其不僅優於 Sonnet 4.5,在許多情況下甚至超越了 Anthropic 於2025年底推出的更先進的 Opus 4.5 模型。過去需要 Opus 級別系統的任務——尤其是與實際辦公流程相關的任務——現在都能由 Sonnet 4.6 完成。公司還強調其在電腦操作能力方面的顯著提升,這也是早期 Sonnet 模型較為落後的領域。

Anthropic 強調該模型經過了廣泛的安全性評估。內部研究人員描述 Sonnet 4.6 展示出強大的安全行為,沒有出現高風險偏差的重大跡象,這一點被公司用來強化其在負責任 AI 發展方面的整體立場。

關於電腦操作能力的討論反映出一個更廣泛的觀點,即能直接操作軟體而非通過 API 的 AI 系統的價值。Anthropic 指出,許多組織依賴的遺留工具難以自動化,而一個能像人類一樣與電腦互動的模型,可以減少對定制整合的需求。

如 OSWorld 這類模擬真實軟體環境的基準測試,在 Sonnet 發展的十六個月中展現出穩步進步。早期用戶反映,Sonnet 4.6 現在能處理如導航複雜的電子表格或完成多步網頁表單等任務,達到接近人類的熟練程度,儘管仍略遜於專家用戶。同時,公司也承認存在提示注入攻擊等風險,並聲稱其抗性較早期版本有所提升。

Sonnet 4.6 提升程式碼品質、推理能力與工具使用

除了電腦操作能力外,Anthropic 報告在多個基準測試中都取得了廣泛的改進。在 Claude Code 中,用戶在大多數測試中偏好 Sonnet 4.6,原因包括更好的上下文理解、減少重複以及更可靠的多步執行。許多用戶也更喜歡它勝過 Opus 4.5,描述其較少過度工程化且更能遵循指令。擴展的上下文窗口使模型能夠處理整個程式碼庫或大型研究資料集,Anthropic 特別強調其在 Vending-Bench Arena 模擬中的表現,該模型採用長期投資策略,超越了競爭對手。

公司指出,早期客戶已在前端開發、財務分析和視覺設計品質等領域看到改進。Sonnet 4.6 也伴隨著 Claude 開發者平台和 API 的更新,包括自適應與擴展思考模式、上下文壓縮、改進的網頁搜尋處理能力,以及擴展的工具使用功能。該模型現已在所有 Claude 計劃中提供,包括免費層,並可通過 Claude Cowork、Claude Code、API 以及主要雲端平台存取。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)