美國 Arcee 開源 Trinity-Large-Thinking 推理模型,宣稱逼近 Opus 4.6、便宜 96%

動區BlockTempo

美國 AI 新創 Arcee 發布開源推理模型 Trinity-Large-Thinking,在 Agent 能力基準 PinchBench 上得分 91.9,僅次於 Opus 4.6 的 93.3,在 Tau2-Airline Agent 任務基準上更以 88.0 奪下所有對比模型最高分。模型採用 400B 稀疏混合專家架構,API 定價為輸出 $0.90/百萬 token,較 Opus 4.6 便宜約 96%,以 Apache 2.0 授權開放權重下載。由動區動趨整理報導。
(前情提要:OpenRouter 分析 100 兆 Token 研報:人類到底用 AI 做什麼、中國模型崛起與使用者留存秘密)
(背景補充:Claude Opus 4.6 來了:自己寫編譯器、做 PPT、隨手挖出 500 個零日漏洞,你的工作它都想試試)。

員工數不到一百人的美國 AI 新創 Arcee,在 Agent 能力評比上交出緊咬 Anthropic 旗艦模型的分數,而且價格只要人家的 4%。

Arcee 這家公司過去不算主流關注焦點,但他們最新發布的 Trinity-Large-Thinking 在多個 Agent 場景基準上已經擠進了前段班。

Kilo 開發的 PinchBench 是目前業界衡量模型在 Agent 工作流中實戰能力的重要指標,Trinity-Large-Thinking 在這項測試中拿到 91.9,而目前的王者 Opus 4.6 是 93.3,差距只有 1.4%。

在另一項模擬真實客服場景的 Tau2-Airline 基準中,它更拿下 88.0 的成績,比所有參與對比的模型都高。這意味著在需要多輪對話、反覆查詢工具的實際 Agent 任務中,這款開源模型確實具備很高的水準。

而 Arcee API 的定價是輸出 $0.90/百萬 token,官方稱這比 Opus 4.6 便宜約 96%。對於需要讓 Agent 長時間自動執行、不斷消耗 token 的應用場景來說,成本差距可能比模型分數差距更有意義。

400B 總引數,每次推理只燒 13B

根據 Arcee AI 官方部落格表示,做到這種 CP 值的關鍵在架構選擇。Trinity-Large-Thinking 用了稀疏 MoE(混合專家)設計,裡面塞了 256 個專家模組,但每次處理 token 只會啟動其中 4 個。換算下來 400B 的龐大模型在實際推理時只需要 13B 的算力負擔,執行效率大約是同量級密集模型的 2-3 倍。

和今年 1 月底發布的前代 Preview 比,最大升級是加入了推理思考鏈。

Preview 只做指令微調,這次的 Thinking 版本會在回答前先「想一下」,對多輪工具呼叫的穩定度和長上下文的連貫性都有明顯改善。Arcee 自己說得很直接:這個模型是為了在長時間 Agent 迴圈中不崩潰而設計的。

整個基底模型用了 2,000 萬美元、33 天訓練完成,Thinking 版本的後訓練則花了 9 個月打磨。

Arcee CEO Lucas Atkins 在發布文中寫道:「Getting here took difficult technical work, hard calls…Nobody did that. They kept pushing.」

通用推理不是它的主場

當然,專精 Agent 也意味著有取捨。在通用推理基準上,Trinity-Large-Thinking 的成績就沒那麼亮眼了。GPQA-D 拿到 76.3,而 Kimi K2.5 是 86.9、Opus 4.6 是 89.2,差距分別有 10 和 13 個百分點;MMLU-Pro 的 83.4 也在對比模型中墊底。

但 Arcee 似乎不打算在這個方向硬拼,官方表示是「Trinity-Large-Thinking 在許多維度上是中國以外最強的開源模型」,已經表示他們的對手不是 Opus 或 GPT,而是 DeepSeek、Kimi 等中國開源陣營。

Trinity-Large-Thinking 已同步上架 OpenRouter,前 5 天在 OpenClaw 中免費使用。前代 Preview 也將繼續免費提供。

說到前一版 Preview,它自 1 月底上線以來在 OpenRouter 平台上累計處理超過 3.37 兆 token。在 OpenClaw 的統計中,它是美國使用量排名第一、全球排名第四的開源模型。對一家規模不大的新創來說,這個採用率已經證明他的便宜好用,市場需求確實存在。

模型權重以 Apache 2.0 授權在 Hugging Face 公開,任何人都可以下載、修改和商用部署。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento