OpenAI 推出智能合約安全評估系統

OpenAI 推出了一個名為 EVMbench 的新系統,旨在衡量人工智慧代理在發現與修復加密智能合約安全漏洞方面的能力。

摘要

  • OpenAI 推出了 EVMbench,一個旨在測試 AI 代理在檢測、修復與利用智能合約漏洞方面表現的新框架。
  • 該基準由 Paradigm 共同開發,建立在實際審計數據之上,專注於實用且高風險的安全場景。
  • 初步結果顯示在利用任務上進展顯著,而檢測與修補仍具挑戰性。

該公司於2月18日宣布,與 Paradigm 合作開發了 EVMbench。此基準專注於為以太坊虛擬機(EVM)構建的合約,旨在測試 AI 系統在實際金融環境中的表現。

OpenAI 表示,目前智能合約保護著超過1000億美元的開源加密資產,隨著 AI 工具能力的提升,安全測試變得越來越重要。

測試 AI 處理真實安全風險的能力

EVMbench 評估 AI 代理在三個主要任務中的表現:檢測漏洞、修復有缺陷的程式碼,以及模擬攻擊。該系統使用來自40次過去安全審計的120個高風險問題,許多來自公開審計比賽。

額外的場景則取自對 Tempo 區塊鏈的審查,該網絡專為穩定幣用途而設計,反映智能合約在金融應用中的實際使用情況。

為建立測試環境,OpenAI 改編了現有的利用腳本,並在必要時創建新腳本。所有利用測試均在隔離系統中運行,而非在實時網絡上,且僅包含已披露的漏洞。

在檢測模式下,代理會審查合約程式碼並試圖識別已知的安全缺陷。在修補模式下,它們必須修復這些缺陷而不破壞軟體。在利用模式中,代理則在受控環境中嘗試從漏洞合約中抽取資金。

初步結果與行業影響

OpenAI 表示,已開發專用測試框架以確保結果的可重複性與驗證性。

該公司使用 EVMbench 測試了多款先進模型。在利用模式中,GPT-5.3-Codex 達到72.2%的得分,而六個月前發布的 GPT-5 則為31.9%。檢測與修補的得分較低,顯示許多漏洞仍難以由 AI 系統處理。

研究人員觀察到,當目標明確(如抽取資金)時,代理的表現最佳;而在需要深入分析(如審查大型程式碼庫或修復微妙錯誤)時,表現則較差。

OpenAI 承認,EVMbench 並未完全反映現實世界的情況。許多主要的加密項目會進行比資料集更為全面的審查,且某些基於時間的攻擊與多鏈攻擊也不在系統範圍內。

該公司表示,該基準旨在支持 AI 在網絡安全中的防禦性應用。隨著 AI 工具變得更強大,它們可能被攻擊者與審計者雙方使用。測量其能力被視為降低風險與促進負責任部署的方法。

在發布同時,OpenAI 表示將擴展安全計畫,並投資1000萬美元的 API 積分,以支持開源與基礎設施保護。所有 EVMbench 工具與數據集已公開,以促進進一步研究。

ETH-0.32%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)