Nous avons récemment constaté une exploitation de 1,78 M$ causée par une vulnérabilité écrite par Claude Opus 4.6.
cbETH était évalué à $1 au lieu de 2 000 $. Peu de temps après, @OpenAI a lancé EVMbench. Pour faire simple, c’est un benchmark qui évalue la capacité des agents IA à interagir avec des contrats intelligents.
Il possède 3 modes d’évaluation principaux : > Détecter : analyse la capacité de l’agent à détecter les vulnérabilités > Corriger : analyse la capacité de l’agent à réparer ces vulnérabilités > Exploiter : analyse la capacité de l’agent à exploiter ces vulnérabilités Leur analyse a montré que les modèles récents (Opus 4.6, GPT-5.3-Codex, etc.) sont très performants pour exploiter les vulnérabilités, mais faibles pour les détecter et les corriger. Et c’est exactement ce que j’ai observé en faisant fonctionner mes propres agents sur les derniers modèles. Dans mon équipe d’agents, j’inclus toujours un agent auditeur qui obtient le contexte complet, avec pour objectif principal de trouver des vulnérabilités. Lorsqu’il en trouve une, l’agent développeur la corrige facilement. Mais le problème, c’est qu’avec 10 vulnérabilités, il ne peut en détecter que 3. Pour l’instant, nous ne pouvons tout simplement pas compter sur les agents pour détecter correctement les vulnérabilités. Lancer ce benchmark est une démarche très forte. Je suis impatient de le tester avec mes agents. Pour être clair, ce n’est pas un scanner de sécurité ni un outil d’audit prêt pour la production. Il est principalement destiné à mesurer les capacités de l’IA, à comparer les modèles, et à fournir des métriques sur l’évolution de l’IA dans ce domaine. En gros, c’est un outil qui permet d’évaluer l’IA et de l’améliorer dans ce domaine, et franchement, on en a vraiment besoin.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Nous avons récemment constaté une exploitation de 1,78 M$ causée par une vulnérabilité écrite par Claude Opus 4.6.
cbETH était évalué à $1 au lieu de 2 000 $.
Peu de temps après, @OpenAI a lancé EVMbench. Pour faire simple, c’est un benchmark qui évalue la capacité des agents IA à interagir avec des contrats intelligents.
Il possède 3 modes d’évaluation principaux :
> Détecter : analyse la capacité de l’agent à détecter les vulnérabilités
> Corriger : analyse la capacité de l’agent à réparer ces vulnérabilités
> Exploiter : analyse la capacité de l’agent à exploiter ces vulnérabilités
Leur analyse a montré que les modèles récents (Opus 4.6, GPT-5.3-Codex, etc.) sont très performants pour exploiter les vulnérabilités, mais faibles pour les détecter et les corriger.
Et c’est exactement ce que j’ai observé en faisant fonctionner mes propres agents sur les derniers modèles. Dans mon équipe d’agents, j’inclus toujours un agent auditeur qui obtient le contexte complet, avec pour objectif principal de trouver des vulnérabilités.
Lorsqu’il en trouve une, l’agent développeur la corrige facilement.
Mais le problème, c’est qu’avec 10 vulnérabilités, il ne peut en détecter que 3. Pour l’instant, nous ne pouvons tout simplement pas compter sur les agents pour détecter correctement les vulnérabilités.
Lancer ce benchmark est une démarche très forte. Je suis impatient de le tester avec mes agents.
Pour être clair, ce n’est pas un scanner de sécurité ni un outil d’audit prêt pour la production. Il est principalement destiné à mesurer les capacités de l’IA, à comparer les modèles, et à fournir des métriques sur l’évolution de l’IA dans ce domaine.
En gros, c’est un outil qui permet d’évaluer l’IA et de l’améliorer dans ce domaine, et franchement, on en a vraiment besoin.