Недавно мы увидели эксплойт на сумму 1,78 миллиона долларов, вызванный уязвимостью, написанной Claude Opus 4.6.


cbETH был оценен в $1 вместо 2000 долларов.
Недавно после этого @OpenAI запустила EVMbench. Проще говоря, это бенчмарк, который оценивает способность AI-агентов взаимодействовать с умными контрактами.

Он имеет 3 основных режима оценки:
> Detect: анализирует способность агента обнаруживать уязвимости
> Patch: анализирует способность агента исправлять эти уязвимости
> Exploit: анализирует способность агента эксплуатировать эти уязвимости
Их анализ показал, что последние модели (Opus 4.6, GPT-5.3-Codex и т.д.) очень хорошо умеют эксплуатировать уязвимости, но слабые в обнаружении и исправлении.
И именно это я заметил, запуская своих собственных агентов на последних моделях. В моей команде агентов я всегда включаю аудитора, который получает полный контекст, с основной целью поиска уязвимостей.
Когда он находит одну, разработчик-агент легко исправляет её.
Но проблема в том, что из 10 уязвимостей он может найти только 3. Пока что мы просто не можем полагаться на агентов в правильном обнаружении уязвимостей.
Запуск этого бенчмарка — очень сильный ход. Я с нетерпением жду возможности протестировать его со своими агентами.
Чтобы было ясно, это не сканер безопасности или инструмент для аудита, готовый к использованию в производстве. Он в основном предназначен для измерения возможностей ИИ, сравнения моделей и предоставления метрик о прогрессе ИИ в этой области.
В основном, это инструмент, который позволяет оценивать ИИ и улучшать его в этой сфере, и, честно говоря, нам это очень нужно.
Посмотреть Оригинал
post-image
post-image
post-image
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$2.46KДержатели:2
    0.00%
  • РК:$0.1Держатели:1
    0.00%
  • РК:$2.44KДержатели:1
    0.00%
  • РК:$2.44KДержатели:1
    0.00%
  • РК:$2.45KДержатели:1
    0.00%
  • Закрепить