OpenAI a lancé un nouveau système appelé EVMbench, conçu pour mesurer la capacité des agents d’intelligence artificielle à détecter et corriger les vulnérabilités de sécurité dans les contrats intelligents cryptographiques.
Résumé
OpenAI a présenté EVMbench, un nouveau cadre destiné à évaluer la capacité des agents d’IA à détecter, corriger et exploiter les vulnérabilités des contrats intelligents.
Développé en partenariat avec Paradigm, ce benchmark repose sur des données d’audit réelles et se concentre sur des scénarios de sécurité pratiques et à haut risque.
Les premiers résultats montrent des progrès importants dans les tâches d’exploitation, tandis que la détection et la correction restent encore difficiles.
L’entreprise a annoncé le 18 février avoir développé EVMbench en collaboration avec Paradigm. Ce benchmark se concentre sur les contrats conçus pour la machine virtuelle Ethereum (EVM) et vise à tester la performance des systèmes d’IA dans des contextes financiers réels.
OpenAI a indiqué que les contrats intelligents sécurisent actuellement plus de 100 milliards de dollars d’actifs cryptographiques open source, rendant les tests de sécurité de plus en plus importants à mesure que les outils d’IA deviennent plus performants.
Tester la gestion des risques de sécurité réels par l’IA
EVMbench évalue les agents d’IA selon trois principales tâches : détecter les vulnérabilités, corriger le code défectueux et réaliser des attaques simulées. Le système a été construit à partir de 120 problèmes à haut risque issus de 40 audits de sécurité passés, dont beaucoup proviennent de concours d’audit publics.
Des scénarios supplémentaires ont été extraits des revues de la blockchain Tempo, un réseau axé sur les paiements conçu pour l’utilisation de stablecoins. Ces cas ont été ajoutés pour refléter l’utilisation des contrats intelligents dans des applications financières.
Pour créer l’environnement de test, OpenAI a adapté des scripts d’exploitation existants et en a créé de nouveaux si nécessaire. Tous les tests d’exploitation s’effectuent dans des systèmes isolés plutôt que sur des réseaux en direct, et seules les vulnérabilités déjà divulguées sont incluses.
En mode détection, les agents examinent le code du contrat et tentent d’identifier les failles de sécurité connues. En mode correction, ils doivent réparer ces failles sans casser le logiciel. En mode exploitation, ils tentent de siphonner des fonds de contrats vulnérables dans un environnement contrôlé.
Résultats préliminaires et impact dans l’industrie
OpenAI a indiqué qu’un cadre de test personnalisé a été développé pour garantir la reproductibilité et la vérification des résultats.
L’entreprise a testé plusieurs modèles avancés avec EVMbench. En mode exploitation, GPT-5.3-Codex a obtenu un score de 72,2 %, contre 31,9 % pour GPT-5, lancé six mois plus tôt. Les scores en détection et correction étaient plus faibles, montrant que de nombreuses vulnérabilités restent difficiles à gérer pour l’IA.
Les chercheurs ont observé que les agents performaient mieux lorsque les objectifs étaient clairs, comme siphonner des fonds. Leur performance diminuait lorsque les tâches nécessitaient une analyse plus approfondie, comme l’examen de grandes bases de code ou la correction de bugs subtils.
OpenAI a reconnu que EVMbench ne reflète pas entièrement les conditions du monde réel. De nombreux grands projets cryptographiques subissent des revues plus approfondies que celles incluses dans le dataset. Certains attaques basées sur le timing ou multi-chaînes restent également en dehors du périmètre du système.
L’entreprise a déclaré que le benchmark vise à soutenir l’utilisation défensive de l’IA en cybersécurité. À mesure que les outils d’IA deviennent plus puissants, ils pourraient être utilisés aussi bien par des attaquants que par des auditeurs. Mesurer leurs capacités est considéré comme un moyen de réduire les risques et d’encourager un déploiement responsable.
Parallèlement à la sortie, OpenAI a annoncé qu’il étend ses programmes de sécurité et investit 10 millions de dollars en crédits API pour soutenir l’open source et la protection des infrastructures. Tous les outils et ensembles de données d’EVMbench ont été rendus publics pour favoriser la recherche future.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
OpenAI lance un système d'évaluation de la sécurité des contrats intelligents
OpenAI a lancé un nouveau système appelé EVMbench, conçu pour mesurer la capacité des agents d’intelligence artificielle à détecter et corriger les vulnérabilités de sécurité dans les contrats intelligents cryptographiques.
Résumé
L’entreprise a annoncé le 18 février avoir développé EVMbench en collaboration avec Paradigm. Ce benchmark se concentre sur les contrats conçus pour la machine virtuelle Ethereum (EVM) et vise à tester la performance des systèmes d’IA dans des contextes financiers réels.
OpenAI a indiqué que les contrats intelligents sécurisent actuellement plus de 100 milliards de dollars d’actifs cryptographiques open source, rendant les tests de sécurité de plus en plus importants à mesure que les outils d’IA deviennent plus performants.
Tester la gestion des risques de sécurité réels par l’IA
EVMbench évalue les agents d’IA selon trois principales tâches : détecter les vulnérabilités, corriger le code défectueux et réaliser des attaques simulées. Le système a été construit à partir de 120 problèmes à haut risque issus de 40 audits de sécurité passés, dont beaucoup proviennent de concours d’audit publics.
Des scénarios supplémentaires ont été extraits des revues de la blockchain Tempo, un réseau axé sur les paiements conçu pour l’utilisation de stablecoins. Ces cas ont été ajoutés pour refléter l’utilisation des contrats intelligents dans des applications financières.
Pour créer l’environnement de test, OpenAI a adapté des scripts d’exploitation existants et en a créé de nouveaux si nécessaire. Tous les tests d’exploitation s’effectuent dans des systèmes isolés plutôt que sur des réseaux en direct, et seules les vulnérabilités déjà divulguées sont incluses.
En mode détection, les agents examinent le code du contrat et tentent d’identifier les failles de sécurité connues. En mode correction, ils doivent réparer ces failles sans casser le logiciel. En mode exploitation, ils tentent de siphonner des fonds de contrats vulnérables dans un environnement contrôlé.
Résultats préliminaires et impact dans l’industrie
OpenAI a indiqué qu’un cadre de test personnalisé a été développé pour garantir la reproductibilité et la vérification des résultats.
L’entreprise a testé plusieurs modèles avancés avec EVMbench. En mode exploitation, GPT-5.3-Codex a obtenu un score de 72,2 %, contre 31,9 % pour GPT-5, lancé six mois plus tôt. Les scores en détection et correction étaient plus faibles, montrant que de nombreuses vulnérabilités restent difficiles à gérer pour l’IA.
Les chercheurs ont observé que les agents performaient mieux lorsque les objectifs étaient clairs, comme siphonner des fonds. Leur performance diminuait lorsque les tâches nécessitaient une analyse plus approfondie, comme l’examen de grandes bases de code ou la correction de bugs subtils.
OpenAI a reconnu que EVMbench ne reflète pas entièrement les conditions du monde réel. De nombreux grands projets cryptographiques subissent des revues plus approfondies que celles incluses dans le dataset. Certains attaques basées sur le timing ou multi-chaînes restent également en dehors du périmètre du système.
L’entreprise a déclaré que le benchmark vise à soutenir l’utilisation défensive de l’IA en cybersécurité. À mesure que les outils d’IA deviennent plus puissants, ils pourraient être utilisés aussi bien par des attaquants que par des auditeurs. Mesurer leurs capacités est considéré comme un moyen de réduire les risques et d’encourager un déploiement responsable.
Parallèlement à la sortie, OpenAI a annoncé qu’il étend ses programmes de sécurité et investit 10 millions de dollars en crédits API pour soutenir l’open source et la protection des infrastructures. Tous les outils et ensembles de données d’EVMbench ont été rendus publics pour favoriser la recherche future.