OpenAI ha presentado un nuevo sistema llamado EVMbench, diseñado para medir qué tan bien pueden los agentes de inteligencia artificial detectar y corregir fallos de seguridad en contratos inteligentes de criptomonedas.
Resumen
OpenAI ha lanzado EVMbench, un nuevo marco diseñado para evaluar qué tan efectivamente los agentes de IA pueden detectar, corregir y explotar vulnerabilidades en contratos inteligentes.
Desarrollado en colaboración con Paradigm, el benchmark se basa en datos reales de auditorías y se centra en escenarios prácticos de alta riesgo en seguridad.
Los primeros resultados muestran un progreso sólido en tareas de explotación, mientras que la detección y corrección aún presentan desafíos.
La compañía anunció el 18 de febrero que ha desarrollado EVMbench en asociación con Paradigm. El benchmark se enfoca en contratos construidos para la Máquina Virtual de Ethereum y está pensado para evaluar cómo funcionan los sistemas de IA en entornos financieros reales.
OpenAI afirmó que los contratos inteligentes actualmente aseguran más de 100 mil millones de dólares en activos criptográficos de código abierto, haciendo que las pruebas de seguridad sean cada vez más importantes a medida que las herramientas de IA se vuelven más capaces.
Evaluando cómo la IA maneja riesgos reales de seguridad
EVMbench evalúa a los agentes de IA en tres tareas principales: detectar vulnerabilidades, corregir código defectuoso y realizar ataques simulados. El sistema se construyó usando 120 problemas de alto riesgo extraídos de 40 auditorías de seguridad pasadas, muchas de ellas de competencias públicas de auditoría.
Se añadieron escenarios adicionales basados en revisiones de la cadena de bloques Tempo, una red enfocada en pagos diseñada para el uso de stablecoins. Estos casos se incorporaron para reflejar cómo se usan los contratos inteligentes en aplicaciones financieras.
Para construir el entorno de prueba, OpenAI adaptó scripts de explotación existentes y creó otros nuevos cuando fue necesario. Todas las pruebas de explotación se ejecutan en sistemas aislados en lugar de en redes en vivo, y solo se incluyen vulnerabilidades previamente divulgadas.
En modo detección, los agentes revisan el código del contrato e intentan identificar fallos de seguridad conocidos. En modo parche, deben corregar esos fallos sin romper el software. En modo explotación, los agentes intentan drenar fondos de contratos vulnerables en un entorno controlado.
Resultados preliminares e impacto en la industria
OpenAI indicó que se desarrolló un marco de pruebas personalizado para garantizar que los resultados puedan ser reproducidos y verificados.
La compañía probó varios modelos avanzados usando EVMbench. En modo explotación, GPT-5.3-Codex obtuvo una puntuación del 72.2%, en comparación con el 31.9% de GPT-5, lanzado seis meses antes. Las puntuaciones en detección y corrección fueron menores, mostrando que muchas vulnerabilidades aún son difíciles de manejar para los sistemas de IA.
Los investigadores observaron que los agentes rindieron mejor cuando los objetivos eran claros, como drenar fondos. El rendimiento disminuyó cuando las tareas requerían análisis más profundos, como revisar grandes bases de código o corregir errores sutiles.
OpenAI reconoció que EVMbench no refleja completamente las condiciones del mundo real. Muchos proyectos importantes de criptomonedas pasan por revisiones más exhaustivas que las incluidas en el conjunto de datos. También están fuera del alcance del sistema algunos ataques basados en temporización y ataques en múltiples cadenas.
La compañía afirmó que el benchmark está destinado a apoyar el uso defensivo de la IA en ciberseguridad. A medida que las herramientas de IA se vuelven más poderosas, podrían ser utilizadas tanto por atacantes como por auditores. Medir sus capacidades se considera una forma de reducir riesgos y promover un despliegue responsable.
Junto con el lanzamiento, OpenAI anunció que está ampliando programas de seguridad e invirtiendo 10 millones de dólares en créditos API para apoyar el código abierto y la protección de infraestructura. Todas las herramientas y conjuntos de datos de EVMbench han sido puestos a disposición del público para fomentar investigaciones adicionales.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
OpenAI lanza sistema de evaluación de seguridad de contratos inteligentes
OpenAI ha presentado un nuevo sistema llamado EVMbench, diseñado para medir qué tan bien pueden los agentes de inteligencia artificial detectar y corregir fallos de seguridad en contratos inteligentes de criptomonedas.
Resumen
La compañía anunció el 18 de febrero que ha desarrollado EVMbench en asociación con Paradigm. El benchmark se enfoca en contratos construidos para la Máquina Virtual de Ethereum y está pensado para evaluar cómo funcionan los sistemas de IA en entornos financieros reales.
OpenAI afirmó que los contratos inteligentes actualmente aseguran más de 100 mil millones de dólares en activos criptográficos de código abierto, haciendo que las pruebas de seguridad sean cada vez más importantes a medida que las herramientas de IA se vuelven más capaces.
Evaluando cómo la IA maneja riesgos reales de seguridad
EVMbench evalúa a los agentes de IA en tres tareas principales: detectar vulnerabilidades, corregir código defectuoso y realizar ataques simulados. El sistema se construyó usando 120 problemas de alto riesgo extraídos de 40 auditorías de seguridad pasadas, muchas de ellas de competencias públicas de auditoría.
Se añadieron escenarios adicionales basados en revisiones de la cadena de bloques Tempo, una red enfocada en pagos diseñada para el uso de stablecoins. Estos casos se incorporaron para reflejar cómo se usan los contratos inteligentes en aplicaciones financieras.
Para construir el entorno de prueba, OpenAI adaptó scripts de explotación existentes y creó otros nuevos cuando fue necesario. Todas las pruebas de explotación se ejecutan en sistemas aislados en lugar de en redes en vivo, y solo se incluyen vulnerabilidades previamente divulgadas.
En modo detección, los agentes revisan el código del contrato e intentan identificar fallos de seguridad conocidos. En modo parche, deben corregar esos fallos sin romper el software. En modo explotación, los agentes intentan drenar fondos de contratos vulnerables en un entorno controlado.
Resultados preliminares e impacto en la industria
OpenAI indicó que se desarrolló un marco de pruebas personalizado para garantizar que los resultados puedan ser reproducidos y verificados.
La compañía probó varios modelos avanzados usando EVMbench. En modo explotación, GPT-5.3-Codex obtuvo una puntuación del 72.2%, en comparación con el 31.9% de GPT-5, lanzado seis meses antes. Las puntuaciones en detección y corrección fueron menores, mostrando que muchas vulnerabilidades aún son difíciles de manejar para los sistemas de IA.
Los investigadores observaron que los agentes rindieron mejor cuando los objetivos eran claros, como drenar fondos. El rendimiento disminuyó cuando las tareas requerían análisis más profundos, como revisar grandes bases de código o corregir errores sutiles.
OpenAI reconoció que EVMbench no refleja completamente las condiciones del mundo real. Muchos proyectos importantes de criptomonedas pasan por revisiones más exhaustivas que las incluidas en el conjunto de datos. También están fuera del alcance del sistema algunos ataques basados en temporización y ataques en múltiples cadenas.
La compañía afirmó que el benchmark está destinado a apoyar el uso defensivo de la IA en ciberseguridad. A medida que las herramientas de IA se vuelven más poderosas, podrían ser utilizadas tanto por atacantes como por auditores. Medir sus capacidades se considera una forma de reducir riesgos y promover un despliegue responsable.
Junto con el lanzamiento, OpenAI anunció que está ampliando programas de seguridad e invirtiendo 10 millones de dólares en créditos API para apoyar el código abierto y la protección de infraestructura. Todas las herramientas y conjuntos de datos de EVMbench han sido puestos a disposición del público para fomentar investigaciones adicionales.