OpenAIはスマートコントラクトのセキュリティ評価システムを開始

OpenAIは、新しいシステム「EVMbench」を導入しました。これは、人工知能エージェントが暗号スマートコントラクトのセキュリティ脆弱性を見つけて修正できる能力を測定するためのものです。

概要

  • OpenAIは、AIエージェントがスマートコントラクトの脆弱性を検出、修正、悪用できるかどうかを測定する新しいフレームワーク「EVMbench」を導入しました。
  • このベンチマークは、Paradigmと共同で開発され、実際の監査データに基づいており、実用的で高リスクなセキュリティシナリオに焦点を当てています。
  • 初期の結果では、悪用タスクでの進展が顕著である一方、検出と修正は依然として難しい状況です。

同社は2月18日に、Paradigmと提携してEVMbenchを開発したと発表しました。このベンチマークは、イーサリアム仮想マシン(EVM)向けに構築されたコントラクトを対象とし、AIシステムが実際の金融環境でどのように機能するかをテストすることを目的としています。

OpenAIは、現在スマートコントラクトが管理するオープンソースの暗号資産が1,000億ドルを超えていることから、AIツールの能力が向上するにつれてセキュリティテストの重要性が高まっていると述べています。

実際のセキュリティリスクに対するAIの対応をテスト

EVMbenchは、脆弱性の検出、欠陥コードの修正、模擬攻撃の実行という3つの主要なタスクでAIエージェントを評価します。システムは、過去のセキュリティ監査から抽出した120の高リスク問題を基に構築されており、その多くは公開監査コンペティションからのものです。

追加のシナリオは、ステーブルコインの利用を目的とした決済ネットワークTempoブロックチェーンのレビューから採用されました。これらのケースは、スマートコントラクトが金融アプリケーションでどのように使われているかを反映しています。

テスト環境の構築には、OpenAIは既存の悪用スクリプトを適応させ、必要に応じて新たなスクリプトも作成しました。すべての悪用テストはライブネットワークではなく、隔離されたシステム上で実行され、公開された脆弱性のみが対象です。

検出モードでは、エージェントはコントラクトコードをレビューし、既知のセキュリティ欠陥を特定しようとします。パッチモードでは、ソフトウェアを壊さずに欠陥を修正しなければなりません。悪用モードでは、エージェントは脆弱なコントラクトから資金を安全に引き出すことを試みます。

初期の結果と業界への影響

OpenAIは、結果の再現性と検証性を確保するために、カスタムのテストフレームワークを開発したと述べています。

同社は、EVMbenchを用いていくつかの高度なモデルをテストしました。悪用モードでは、GPT-5.3-Codexが72.2%のスコアを獲得し、6か月前にリリースされたGPT-5の31.9%を上回りました。検出と修正のスコアは低く、多くの脆弱性はAIシステムにとって依然として難しいことを示しています。

研究者は、エージェントは目標が明確な場合(資金の引き出しなど)に最も良いパフォーマンスを示し、より深い分析や微妙なバグの修正を必要とするタスクではパフォーマンスが低下することを観察しました。

OpenAIは、EVMbenchが実世界の状況を完全には反映していないことも認めています。多くの主要な暗号プロジェクトは、データセットに含まれるものよりも詳細なレビューを受けており、タイミングに基づく攻撃やマルチチェーン攻撃の一部もシステムの範囲外です。

同社は、このベンチマークはサイバーセキュリティにおけるAIの防御的利用を支援することを目的としていると述べています。AIツールの能力が向上するにつれ、攻撃者と監査者の両方に利用される可能性があり、その能力を測定することはリスクを低減し、責任ある展開を促進する手段と見なされています。

リリースに合わせて、OpenAIはセキュリティプログラムの拡充と、オープンソースやインフラ保護を支援するために1,000万ドルのAPIクレジット投資を発表しました。すべてのEVMbenchツールとデータセットは、さらなる研究を支援するために公開されています。

ETH-1.7%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン