OpenAI lança sistema de avaliação de segurança de contratos inteligentes

2026-02-19 05:21:34

A OpenAI introduziu um novo sistema chamado EVMbench, projetado para medir quão bem os agentes de inteligência artificial conseguem identificar e corrigir falhas de segurança em contratos inteligentes de criptomoedas.

Resumo

A OpenAI lançou o EVMbench, uma nova estrutura criada para avaliar a capacidade dos agentes de IA em detectar, corrigir e explorar vulnerabilidades em contratos inteligentes.
Desenvolvido em parceria com a Paradigm, o benchmark é baseado em dados reais de auditorias e foca em cenários práticos de segurança de alto risco.
Os resultados iniciais mostram um progresso significativo nas tarefas de exploração, enquanto a detecção e correção ainda representam desafios.

A empresa anunciou em 18 de fevereiro que desenvolveu o EVMbench em parceria com a Paradigm. O benchmark concentra-se em contratos construídos para a Máquina Virtual do Ethereum e destina-se a testar o desempenho dos sistemas de IA em ambientes financeiros reais.

A OpenAI afirmou que contratos inteligentes atualmente protegem mais de 100 bilhões de dólares em ativos de criptomoedas de código aberto, tornando os testes de segurança cada vez mais importantes à medida que as ferramentas de IA se tornam mais capazes.

Testando como a IA lida com riscos reais de segurança

O EVMbench avalia os agentes de IA em três tarefas principais: detectar vulnerabilidades, corrigir códigos com falhas e realizar ataques simulados. O sistema foi desenvolvido usando 120 problemas de alto risco extraídos de 40 auditorias de segurança passadas, muitas delas de competições públicas de auditoria.

Cenários adicionais foram retirados de revisões da blockchain Tempo, uma rede focada em pagamentos, projetada para o uso de stablecoins. Esses casos foram adicionados para refletir como os contratos inteligentes são utilizados em aplicações financeiras.

Para construir o ambiente de testes, a OpenAI adaptou scripts de exploração existentes e criou novos quando necessário. Todos os testes de exploração são executados em sistemas isolados, e apenas vulnerabilidades previamente divulgadas são incluídas.

No modo de detecção, os agentes revisam o código do contrato e tentam identificar falhas de segurança conhecidas. No modo de correção, eles devem consertar essas falhas sem comprometer o funcionamento do software. No modo de exploração, os agentes tentam esvaziar fundos de contratos vulneráveis em um ambiente controlado.

Resultados iniciais e impacto na indústria

A OpenAI afirmou que foi desenvolvido um framework de testes personalizado para garantir que os resultados possam ser reproduzidos e verificados.

A empresa testou vários modelos avançados usando o EVMbench. No modo de exploração, o GPT-5.3-Codex obteve uma pontuação de 72,2%, em comparação com 31,9% do GPT-5, lançado seis meses antes. As pontuações de detecção e correção foram mais baixas, mostrando que muitas vulnerabilidades ainda são difíceis de serem tratadas pelos sistemas de IA.

Os pesquisadores observaram que os agentes tiveram melhor desempenho quando os objetivos eram claros, como esvaziar fundos. O desempenho caiu quando as tarefas exigiam análises mais aprofundadas, como revisar grandes bases de código ou corrigir bugs sutis.

A OpenAI reconheceu que o EVMbench não reflete completamente as condições do mundo real. Muitos grandes projetos de criptomoedas passam por revisões mais extensas do que as incluídas no conjunto de dados. Alguns ataques baseados em timing e ataques multi-chain também estão fora do escopo do sistema.

A empresa afirmou que o benchmark tem como objetivo apoiar o uso defensivo da IA na cibersegurança. À medida que as ferramentas de IA se tornam mais poderosas, elas podem ser usadas tanto por atacantes quanto por auditores. Medir suas capacidades é visto como uma forma de reduzir riscos e incentivar uma implantação responsável.

Junto ao lançamento, a OpenAI anunciou que está expandindo programas de segurança e investindo 10 milhões de dólares em créditos de API para apoiar o código aberto e a proteção de infraestrutura. Todas as ferramentas e conjuntos de dados do EVMbench foram tornados públicos para apoiar futuras pesquisas.

ETH0,2%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

2 Curtidas