Нещодавно ми побачили експлойт на суму 1,78 млн доларів, спричинений вразливістю, написаною Claude Opus 4.6.
cbETH був оцінений у $1 замість 2000 доларів. Незабаром після цього @OpenAI запустила EVMbench. Простими словами, це бенчмарк, який оцінює здатність AI-агентів взаємодіяти з смарт-контрактами.
Він має 3 основні режими оцінки: > Виявлення: аналізує здатність агента виявляти вразливості > Виправлення: аналізує здатність агента виправляти ці вразливості > Експлуатація: аналізує здатність агента експлуатувати ці вразливості Їхній аналіз показав, що останні моделі (Opus 4.6, GPT-5.3-Codex тощо) дуже добре справляються з експлуатацією вразливостей, але слабкі у їх виявленні та виправленні. І саме це я спостерігав під час запуску своїх агентів на останніх моделях. У моїй команді агентів я завжди включаю аудитора-агента, який отримує повний контекст, з основною метою виявлення вразливостей. Коли він знаходить одну, розробник-агент легко її виправляє. Але проблема в тому, що з 10 вразливостей він може знайти лише 3. На даний момент ми просто не можемо покладатися на агентів у правильному виявленні вразливостей. Запуск цього бенчмарку — дуже сильний крок. Я з нетерпінням хочу протестувати його зі своїми агентами. Щоб було зрозуміло, це не сканер безпеки або інструмент для аудиту, готовий до виробництва. Це головним чином для вимірювання можливостей AI, порівняння моделей і надання метрик щодо прогресу AI у цій галузі. В основному, це інструмент, який дозволяє оцінювати AI і покращувати його у цій сфері, і чесно кажучи, нам це дуже потрібно.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Нещодавно ми побачили експлойт на суму 1,78 млн доларів, спричинений вразливістю, написаною Claude Opus 4.6.
cbETH був оцінений у $1 замість 2000 доларів.
Незабаром після цього @OpenAI запустила EVMbench. Простими словами, це бенчмарк, який оцінює здатність AI-агентів взаємодіяти з смарт-контрактами.
Він має 3 основні режими оцінки:
> Виявлення: аналізує здатність агента виявляти вразливості
> Виправлення: аналізує здатність агента виправляти ці вразливості
> Експлуатація: аналізує здатність агента експлуатувати ці вразливості
Їхній аналіз показав, що останні моделі (Opus 4.6, GPT-5.3-Codex тощо) дуже добре справляються з експлуатацією вразливостей, але слабкі у їх виявленні та виправленні.
І саме це я спостерігав під час запуску своїх агентів на останніх моделях. У моїй команді агентів я завжди включаю аудитора-агента, який отримує повний контекст, з основною метою виявлення вразливостей.
Коли він знаходить одну, розробник-агент легко її виправляє.
Але проблема в тому, що з 10 вразливостей він може знайти лише 3. На даний момент ми просто не можемо покладатися на агентів у правильному виявленні вразливостей.
Запуск цього бенчмарку — дуже сильний крок. Я з нетерпінням хочу протестувати його зі своїми агентами.
Щоб було зрозуміло, це не сканер безпеки або інструмент для аудиту, готовий до виробництва. Це головним чином для вимірювання можливостей AI, порівняння моделей і надання метрик щодо прогресу AI у цій галузі.
В основному, це інструмент, який дозволяє оцінювати AI і покращувати його у цій сфері, і чесно кажучи, нам це дуже потрібно.