OpenAI запускает систему оценки безопасности смарт-контрактов

2026-02-19 05:21:34

OpenAI представила новую систему под названием EVMbench, предназначенную для оценки способности искусственного интеллекта обнаруживать и исправлять уязвимости в криптовалютных смарт-контрактах.

Краткое содержание

OpenAI представила EVMbench — новую платформу для измерения эффективности ИИ-агентов в обнаружении, исправлении и эксплуатации уязвимостей смарт-контрактов.
Разработанная совместно с Paradigm, эта система основана на реальных данных аудита и ориентирована на практические сценарии с высоким уровнем риска.
Первые результаты показывают значительный прогресс в задачах эксплуатации, в то время как обнаружение и исправление остаются сложными.

Компания объявила 18 февраля, что разработала EVMbench в партнерстве с Paradigm. Эта платформа ориентирована на контракты, созданные для Ethereum Virtual Machine, и предназначена для тестирования работы ИИ-систем в реальных финансовых условиях.

OpenAI отметил, что в настоящее время смарт-контракты обеспечивают безопасность более 100 миллиардов долларов в открытых криптоактивах, что делает тестирование безопасности все более важным по мере повышения возможностей ИИ-инструментов.

Тестирование работы ИИ с реальными угрозами безопасности

EVMbench оценивает работу ИИ-агентов по трем основным задачам: обнаружению уязвимостей, исправлению ошибок в коде и проведению симулированных атак. Система построена на базе 120 высокорискованных проблем, взятых из 40 прошлых аудитов безопасности, многие из которых проводились в рамках публичных конкурсов по аудиту.

Дополнительные сценарии были взяты из обзоров блокчейна Tempo — сети, ориентированной на платежи и предназначенной для использования стейблкоинов. Эти случаи были добавлены для отражения использования смарт-контрактов в финансовых приложениях.

Для создания тестовой среды OpenAI адаптировала существующие скрипты эксплуатации и создала новые при необходимости. Все тесты на эксплуатацию проводятся в изолированных системах, а не в реальных сетях, и включают только ранее раскрытые уязвимости.

В режиме обнаружения агенты просматривают код контрактов и пытаются выявить известные уязвимости. В режиме исправления им нужно устранить эти уязвимости, не нарушая работу программного обеспечения. В режиме эксплуатации агенты пытаются вывести средства с уязвимых контрактов в контролируемых условиях.

Ранние результаты и влияние на индустрию

OpenAI заявил, что для обеспечения воспроизводимости и проверки результатов была разработана специальная тестовая платформа.

Компания протестировала несколько продвинутых моделей с помощью EVMbench. В режиме эксплуатации GPT-5.3-Codex набрал 72,2%, тогда как GPT-5, выпущенная шесть месяцев ранее, — 31,9%. Оценки по обнаружению и исправлению были ниже, что свидетельствует о сложности многих уязвимостей для ИИ-систем.

Исследователи отметили, что агенты показывали лучшие результаты, когда цели были ясны, например, вывод средств. Производительность снижалась при более сложных задачах, таких как анализ больших кодовых баз или исправление тонких ошибок.

OpenAI признала, что EVMbench не полностью отражает реальные условия. Многие крупные криптопроекты проходят более тщательные проверки, чем те, что включены в датасет. Также за пределами системы остаются атаки, основанные на времени или мультицепочечные.

Компания заявила, что эта платформа предназначена для поддержки использования ИИ в кибербезопасности с целью защиты. По мере повышения мощностей ИИ-инструментов их могут использовать как злоумышленники, так и аудиторы. Оценка их возможностей считается важным шагом для снижения рисков и поощрения ответственного внедрения.

В рамках релиза OpenAI объявила о расширении программ по обеспечению безопасности и инвестировании 10 миллионов долларов в кредиты API для поддержки open-source проектов и инфраструктурной защиты. Все инструменты и датасеты EVMbench сделаны публичными для дальнейших исследований.

ETH-1,93%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

2 Лайков