OpenAI推出智能合约安全评估系统

OpenAI推出了一套名为EVMbench的新系统,旨在衡量人工智能代理在发现和修复加密智能合约安全漏洞方面的能力。

摘要

  • OpenAI推出了EVMbench,这是一套旨在衡量AI代理检测、修复和利用智能合约漏洞能力的新框架。
  • 该基准由Paradigm合作开发,基于真实审计数据,重点关注实际高风险安全场景。
  • 初步结果显示在利用任务中取得了较大进展,而检测和修补仍然具有挑战性。

该公司于2月18日宣布与Paradigm合作开发了EVMbench。该基准专注于为以太坊虚拟机(EVM)构建的合约,旨在测试AI系统在真实金融环境中的表现。

OpenAI表示,目前智能合约保护着超过1000亿美元的开源加密资产,随着AI工具变得更加强大,安全测试变得日益重要。

测试AI应对真实安全风险

EVMbench评估AI代理的三个主要任务:检测漏洞、修复有缺陷的代码以及执行模拟攻击。该系统使用了40次过去安全审计中发现的120个高风险问题,许多来自公开审计竞赛。

此外,还借鉴了对Tempo区块链的审查,Tempo是一个专为稳定币使用设计的支付网络。这些案例被加入以反映智能合约在金融应用中的实际使用情况。

为了构建测试环境,OpenAI调整了现有的利用脚本,并在必要时创建了新的脚本。所有利用测试都在隔离系统中运行,而非在实际网络上,且仅包括已披露的漏洞。

在检测模式下,代理会审查合约代码,尝试识别已知的安全缺陷。在修补模式下,它们必须修复这些缺陷而不破坏软件。在利用模式下,代理尝试在受控环境中从易受攻击的合约中抽取资金。

初步结果与行业影响

OpenAI表示,开发了一个定制的测试框架,以确保结果的可复现性和验证性。

公司使用EVMbench测试了多个先进模型。在利用模式中,GPT-5.3-Codex的得分为72.2%,而六个月前发布的GPT-5的得分为31.9%。检测和修补的得分较低,显示许多漏洞仍然难以由AI系统处理。

研究人员观察到,当目标明确(如抽取资金)时,代理表现最佳。当任务需要更深入的分析(如审查大量代码或修复微妙的漏洞)时,表现会下降。

OpenAI承认,EVMbench不能完全反映实际环境。许多主要的加密项目经过了比数据集中更为全面的审查。一些基于时间的攻击和多链攻击也不在系统范围内。

公司表示,该基准旨在支持AI在网络安全中的防御性应用。随着AI工具变得更加强大,它们可能被攻击者和审计员同时使用。衡量其能力被视为降低风险和促进负责任部署的方式。

在发布的同时,OpenAI表示将扩大安全项目,并投资1000万美元的API积分,以支持开源和基础设施保护。所有EVMbench工具和数据集已公开,以支持进一步的研究。

ETH-0.29%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)