OpenAI запускає систему оцінки безпеки смарт-контрактів

2026-02-19 05:21:34

OpenAI представила нову систему під назвою EVMbench, яка призначена для вимірювання здатності штучного інтелекту виявляти та виправляти вразливості безпеки у крипто-розумних контрактах.

Коротко

OpenAI запустила EVMbench — нову платформу для оцінки здатності AI-агентів виявляти, виправляти та експлуатувати вразливості у смарт-контрактах.
Розроблена у співпраці з Paradigm, ця бенчмарк базується на реальних даних аудитів і зосереджена на практичних, високоризикових сценаріях безпеки.
Попередні результати показують значний прогрес у задачах експлуатації, тоді як виявлення та виправлення все ще залишаються складними.

Компанія оголосила 18 лютого, що розробила EVMbench у партнерстві з Paradigm. Ця платформа орієнтована на контракти, створені для Ethereum Virtual Machine, і має на меті тестувати, як системи штучного інтелекту працюють у реальних фінансових умовах.

OpenAI зазначила, що смарт-контракти наразі забезпечують безпеку понад 100 мільярдів доларів у відкритих криптоактивах, тому тестування безпеки стає дедалі важливішим із зростанням можливостей AI.

Тестування здатності AI справлятися з реальними ризиками безпеки

EVMbench оцінює AI-агентів за трьома основними завданнями: виявлення вразливостей, виправлення помилкового коду та проведення симульованих атак. Система побудована на основі 120 високоризикових проблем, взятих із 40 минулих аудитів безпеки, багато з яких — з публічних конкурсів аудиту.

Додаткові сценарії були взяті з оглядів блокчейну Tempo, мережі, орієнтованої на платежі та стабільні монети. Ці випадки додані для відображення використання смарт-контрактів у фінансових додатках.

Для створення тестового середовища OpenAI адаптувала існуючі скрипти експлуатації та створила нові за потреби. Всі тести на експлуатацію виконуються у ізольованих системах, а не у реальних мережах, і включають лише раніше розкриті вразливості.

У режимі виявлення агенти аналізують код контракту та намагаються ідентифікувати відомі недоліки безпеки. У режимі виправлення вони повинні усунути ці недоліки, не порушуючи роботу програми. У режимі експлуатації агенти намагаються вивести кошти з уразливих контрактів у контрольованих умовах.

Попередні результати та вплив на індустрію

OpenAI повідомила, що була розроблена спеціальна тестова платформа для забезпечення можливості відтворення та перевірки результатів.

Компанія протестувала кілька передових моделей за допомогою EVMbench. У режимі експлуатації GPT-5.3-Codex набрав 72,2%, тоді як GPT-5, випущена шість місяців раніше, — 31,9%. Результати у виявленні та виправленні були нижчими, що свідчить про те, що багато вразливостей досі важко виявити та виправити AI-системам.

Дослідники зауважили, що агенти найкраще працювали, коли цілі були чіткими, наприклад, виведення коштів. Показники знижувалися, коли потрібно було глибше аналізувати, наприклад, великі кодові бази або виправляти тонкі помилки.

OpenAI визнає, що EVMbench не повністю відображає реальні умови. Багато великих криптопроектів проходять більш глибокі огляди, ніж ті, що включені до набору даних. Також поза межами системи залишаються атаки, що базуються на часі або мульти-ланцюгові.

Компанія заявила, що бенчмарк створений для підтримки захисного використання AI у кібербезпеці. Оскільки інструменти AI стають потужнішими, їх можуть використовувати як зловмисники, так і аудитори. Вимірювання їх можливостей вважається способом зменшення ризиків і заохочення відповідальної розгортки.

Разом із релізом OpenAI повідомила про розширення програм безпеки та інвестиції у розмірі 10 мільйонів доларів у кредити API для підтримки відкритих проектів і захисту інфраструктури. Всі інструменти та набори даних EVMbench зроблені публічно доступними для подальших досліджень.

ETH-1,93%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

2 лайків