OpenAI telah memperkenalkan sistem baru bernama EVMbench, yang dirancang untuk mengukur seberapa baik agen kecerdasan buatan dapat menemukan dan memperbaiki celah keamanan dalam kontrak pintar kripto.
Ringkasan
OpenAI telah memperkenalkan EVMbench, kerangka kerja baru yang dirancang untuk mengukur seberapa baik agen AI dapat mendeteksi, memperbaiki, dan mengeksploitasi kerentanan kontrak pintar.
Dikembangkan bersama Paradigm, tolok ukur ini dibangun berdasarkan data audit nyata dan berfokus pada skenario keamanan berisiko tinggi yang praktis.
Hasil awal menunjukkan kemajuan yang kuat dalam tugas eksploitasi, sementara deteksi dan perbaikan masih menjadi tantangan.
Perusahaan mengumumkan pada 18 Februari bahwa mereka telah mengembangkan EVMbench bekerja sama dengan Paradigm. Tolok ukur ini berfokus pada kontrak yang dibangun untuk Ethereum Virtual Machine dan dimaksudkan untuk menguji kinerja sistem AI dalam pengaturan keuangan nyata.
OpenAI menyatakan bahwa kontrak pintar saat ini mengamankan lebih dari $100 miliar aset kripto sumber terbuka, menjadikan pengujian keamanan semakin penting seiring kemampuan alat AI yang semakin meningkat.
Menguji bagaimana AI menangani risiko keamanan nyata
EVMbench mengevaluasi agen AI melalui tiga tugas utama: mendeteksi kerentanan, memperbaiki kode yang cacat, dan melakukan serangan simulasi. Sistem ini dibangun menggunakan 120 masalah berisiko tinggi yang diambil dari 40 audit keamanan sebelumnya, banyak dari kompetisi audit publik.
Skenario tambahan diambil dari ulasan blockchain Tempo, sebuah jaringan yang berfokus pada pembayaran yang dirancang untuk penggunaan stablecoin. Kasus-kasus ini ditambahkan untuk mencerminkan bagaimana kontrak pintar digunakan dalam aplikasi keuangan.
Untuk membangun lingkungan pengujian, OpenAI menyesuaikan skrip eksploitasi yang ada dan membuat yang baru jika diperlukan. Semua pengujian eksploitasi dijalankan dalam sistem terisolasi daripada di jaringan langsung, dan hanya kerentanan yang sebelumnya diungkapkan yang disertakan.
Dalam mode deteksi, agen meninjau kode kontrak dan mencoba mengidentifikasi celah keamanan yang diketahui. Dalam mode perbaikan, mereka harus memperbaiki celah tersebut tanpa merusak perangkat lunak. Dalam mode eksploitasi, agen berusaha menguras dana dari kontrak yang rentan dalam pengaturan terkendali.
Hasil awal dan dampak industri
OpenAI menyatakan bahwa kerangka pengujian khusus dikembangkan untuk memastikan hasil dapat direproduksi dan diverifikasi.
Perusahaan menguji beberapa model canggih menggunakan EVMbench. Dalam mode eksploitasi, GPT-5.3-Codex meraih skor 72,2%, dibandingkan 31,9% untuk GPT-5, yang dirilis enam bulan sebelumnya. Skor deteksi dan perbaikan lebih rendah, menunjukkan bahwa banyak kerentanan masih sulit ditangani oleh sistem AI.
Para peneliti mengamati bahwa agen berkinerja terbaik ketika tujuan jelas, seperti menguras dana. Kinerja menurun ketika tugas membutuhkan analisis lebih mendalam, seperti meninjau basis kode besar atau memperbaiki bug halus.
OpenAI mengakui bahwa EVMbench tidak sepenuhnya mencerminkan kondisi dunia nyata. Banyak proyek kripto besar menjalani ulasan yang lebih mendalam daripada yang termasuk dalam dataset. Beberapa serangan berbasis waktu dan multi-chain juga di luar cakupan sistem.
Perusahaan menyatakan bahwa tolok ukur ini dimaksudkan untuk mendukung penggunaan AI secara defensif dalam keamanan siber. Seiring alat AI menjadi lebih kuat, mereka dapat digunakan oleh penyerang maupun auditor. Mengukur kemampuan mereka dianggap sebagai cara untuk mengurangi risiko dan mendorong penerapan yang bertanggung jawab.
Selain peluncuran ini, OpenAI menyatakan bahwa mereka sedang memperluas program keamanan dan menginvestasikan $10 juta dalam kredit API untuk mendukung sumber terbuka dan perlindungan infrastruktur. Semua alat dan dataset EVMbench telah dipublikasikan untuk mendukung penelitian lebih lanjut.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
OpenAI meluncurkan sistem evaluasi keamanan kontrak pintar
OpenAI telah memperkenalkan sistem baru bernama EVMbench, yang dirancang untuk mengukur seberapa baik agen kecerdasan buatan dapat menemukan dan memperbaiki celah keamanan dalam kontrak pintar kripto.
Ringkasan
Perusahaan mengumumkan pada 18 Februari bahwa mereka telah mengembangkan EVMbench bekerja sama dengan Paradigm. Tolok ukur ini berfokus pada kontrak yang dibangun untuk Ethereum Virtual Machine dan dimaksudkan untuk menguji kinerja sistem AI dalam pengaturan keuangan nyata.
OpenAI menyatakan bahwa kontrak pintar saat ini mengamankan lebih dari $100 miliar aset kripto sumber terbuka, menjadikan pengujian keamanan semakin penting seiring kemampuan alat AI yang semakin meningkat.
Menguji bagaimana AI menangani risiko keamanan nyata
EVMbench mengevaluasi agen AI melalui tiga tugas utama: mendeteksi kerentanan, memperbaiki kode yang cacat, dan melakukan serangan simulasi. Sistem ini dibangun menggunakan 120 masalah berisiko tinggi yang diambil dari 40 audit keamanan sebelumnya, banyak dari kompetisi audit publik.
Skenario tambahan diambil dari ulasan blockchain Tempo, sebuah jaringan yang berfokus pada pembayaran yang dirancang untuk penggunaan stablecoin. Kasus-kasus ini ditambahkan untuk mencerminkan bagaimana kontrak pintar digunakan dalam aplikasi keuangan.
Untuk membangun lingkungan pengujian, OpenAI menyesuaikan skrip eksploitasi yang ada dan membuat yang baru jika diperlukan. Semua pengujian eksploitasi dijalankan dalam sistem terisolasi daripada di jaringan langsung, dan hanya kerentanan yang sebelumnya diungkapkan yang disertakan.
Dalam mode deteksi, agen meninjau kode kontrak dan mencoba mengidentifikasi celah keamanan yang diketahui. Dalam mode perbaikan, mereka harus memperbaiki celah tersebut tanpa merusak perangkat lunak. Dalam mode eksploitasi, agen berusaha menguras dana dari kontrak yang rentan dalam pengaturan terkendali.
Hasil awal dan dampak industri
OpenAI menyatakan bahwa kerangka pengujian khusus dikembangkan untuk memastikan hasil dapat direproduksi dan diverifikasi.
Perusahaan menguji beberapa model canggih menggunakan EVMbench. Dalam mode eksploitasi, GPT-5.3-Codex meraih skor 72,2%, dibandingkan 31,9% untuk GPT-5, yang dirilis enam bulan sebelumnya. Skor deteksi dan perbaikan lebih rendah, menunjukkan bahwa banyak kerentanan masih sulit ditangani oleh sistem AI.
Para peneliti mengamati bahwa agen berkinerja terbaik ketika tujuan jelas, seperti menguras dana. Kinerja menurun ketika tugas membutuhkan analisis lebih mendalam, seperti meninjau basis kode besar atau memperbaiki bug halus.
OpenAI mengakui bahwa EVMbench tidak sepenuhnya mencerminkan kondisi dunia nyata. Banyak proyek kripto besar menjalani ulasan yang lebih mendalam daripada yang termasuk dalam dataset. Beberapa serangan berbasis waktu dan multi-chain juga di luar cakupan sistem.
Perusahaan menyatakan bahwa tolok ukur ini dimaksudkan untuk mendukung penggunaan AI secara defensif dalam keamanan siber. Seiring alat AI menjadi lebih kuat, mereka dapat digunakan oleh penyerang maupun auditor. Mengukur kemampuan mereka dianggap sebagai cara untuk mengurangi risiko dan mendorong penerapan yang bertanggung jawab.
Selain peluncuran ini, OpenAI menyatakan bahwa mereka sedang memperluas program keamanan dan menginvestasikan $10 juta dalam kredit API untuk mendukung sumber terbuka dan perlindungan infrastruktur. Semua alat dan dataset EVMbench telah dipublikasikan untuk mendukung penelitian lebih lanjut.