2026-02-10 22:32:31

好的——這就是為什麼你永遠不應該相信AI基準測試的原因。

最近的一項研究比較了Opus 4.6 (最新的Claude模型)與Opus 4.5在165個不同任務中的表現。
深入研究得出結論，Opus 4.6的表現並不比前一個模型更好。
但Opus 4.6在成本和壁時間方面都降低了50%。
仍然是巨大的改進，只是要提防基準測試的標題。
判斷一個模型是否優於前一版本的最佳方法是根據你的具體需求進行測試。
無論如何，恭喜Anthropic團隊在成本和壁時間方面取得的巨大減少。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

熱門 Gate Fun
查看更多

1
麻辣隔壁
麻辣隔壁
市值:$0.1持有人數:1
0.00%
2
嗨起来
嗨起来
市值:$2468.96持有人數:1
0.00%
3
DOGEBEAN
DGB
市值:$2486.2持有人數:1
0.00%
4
Gate.com
Gate.com
市值:$0.1持有人數:1
0.00%
5
USBB
年兽
市值:$2486.2持有人數:1
0.00%

好的——這就是為什麼你永遠不應該相信AI基準測試的原因。

熱門話題

Gate廣場發帖領五萬美金紅包

美國核心CPI創四年新低

比特幣下一步怎麼走？

Gate春節賽馬紅包嘉年華

我看好的AIAgent

熱門 Gate Fun

麻辣隔壁

麻辣隔壁

嗨起来

嗨起来

DOGEBEAN

DGB

Gate.com

Gate.com

USBB

年兽

置頂