AI-ABC

AI Agent Benchmarkfor

The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.

Переглянути результати оцінювання ↓GitHub · Збірник & Правила оцінювання

66+

Оцінка завдання

ключова складова

Оцінювач Агент

Щомісячно

Щомісячне оновлення

Розміри

Оцінювальні виміри

Покриття користувачів Crypto на всіх етапах — від базових операцій CEX до складних розслідувань на блокчейні, все побудовано на реальних сценаріях.

10 завдання

CEX

Спотове замовлення, відкриття та закриття контрактів, перевірка фінансових продуктів, сіткова стратегія, перекази між рахунками та аналіз портфоліо.

10 завдання

DEX

Онлайн Swap, кросс-ланковий міст, порівняння цін, контроль сліпих точок, оптимізація багатоступеневих маршрутів та оцінка ризиків контрактів.

10 завдання

гаманець

Багатоланцюгові перекази, оцінка резерву Gas, перевірка формату адреси, блокування помилкових ланцюгів та умовні перекази.

12 завдання

Аналіз ринку

Реальний ринок, технічний аналіз RSI / K-ліній, оцінка співвідношення обсягу та ціни, порівняння кількох валют та аналіз волатильності.

12 завдання

Дослідження проекту

Аналіз токеноміки, оцінка циклів наративу, виявлення Rug Pull, порівняння з конкурентами та дослідницький звіт.

12 завдання

Ланцюгова відстеження

Аналіз адрес, прибутків та збитків, відстеження великих китів, сигнали Smart Money, моніторинг безпеки протоколу.

Базові операції

Одноразові команди, чіткі наміри. Наприклад, перевірка балансу, перегляд цін на ринку, просте оформлення замовлення.

умовна операція

Містить попередні перевірки або виняткові гілки. Наприклад, блокування через недостатній баланс, доповнення параметрів, виявлення ризиків помилкових ланцюгів.

Складне завдання

Багатоетапні, з багатьма обмеженнями, вимагають міркувань і оцінок. Наприклад, оптимальний шлях між ланцюгами, повний переказ збереження Gas.

Результати березня 2026 року

Рейтинг оглядів

Загальний зважений бал за 6 основними вимірами. Усі оцінювання проводяться за допомогою двомодельного механізму консенсусу з додатковим ручним арбітражем.

#	Агент	тип	Загальний бал	CEX	DEX	гаманець	Аналіз ринку	Дослідження проекту	Ланцюгова відстеження
1	GateAI Agent	Універсальний ШІ	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI installed）	Універсальний ШІ	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI installed）	Універсальний ШІ	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Крипто ШІ	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI installed）	Універсальний ШІ	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Крипто ШІ	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	Універсальний ШІ	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Крипто ШІ	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	Універсальний ШІ	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI installed）82.8

Codex Agent（Gate for AI installed）81.2

Gate AI Agent у цьому оцінюванні зайняв перше місце в загальному рейтингу. Як глибоко інтегрований у біржу рідний агент, він зайняв перше місце за трьома основними вимірами: CEX торгівля, DEX торгівля та аналіз ринку. У цьому оцінюванні було включено 9 агентів, теми охоплюють 6 основних сценаріїв: CEX торгівля, DEX торгівля, операції з гаманцем, аналіз ринку, дослідження в ланцюгу та дослідження проектів, оцінка проводилася за допомогою двомодельного механізму консенсусу з подальшою ручною перевіркою. Виступ Gate AI Agent за цими стандартами є повною перевіркою його рідних можливостей у Web3.

Рамка оцінювання

Методологія оцінювання

Кожне питання оцінюється за 2-3 незалежними критеріями, використовуючи двомодельний консенсусний аудит, всі еталони та ваги повністю відкриті.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Виявлення та блокування ризиків

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS

1.0

Повністю відповідає всім критеріям оцінювання.

PARTIAL

0.6

Напрямок правильний, але виконання неповне.

FAIL

0.0

Помилка, вигадка або наявність ризику безпеки

Двомодельна оцінка консенсусу

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

Вагова комплексна оцінка

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Оцінка категорії агентів

Gate AI Агент

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Універсальний AI агент

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Третій сторонній Crypto AI Agent

Industry's other Crypto-specific AI Agents

Переглянути повний набір завдань та правила оцінювання →

Деталі оцінки теми

Деталі оцінювання по запитаннях

Натисніть на будь-яке питання, щоб розгорнути та переглянути бали та критерії оцінки кожного агента.

CEX

DEX

гаманець

Аналіз ринку

Дослідження проекту

Ланцюгова відстеження

cex_001L1Допоможіть мені подивитися, скільки USDT у мене залишилося на спотовому рахунку.100▾

Допоможіть мені подивитися, скільки USDT у мене залишилося на спотовому рахунку.

GateAI Agent100

Claude Agent（Gate for AI installed）95

Codex Agent（Gate for AI installed）82.5

AskSurf Agent36.5

Manus（Gate for AI installed）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

Оцінювальні виміри

Розуміння намірів облікового записуЧи правильно ідентифіковано як запит балансу спотового рахунку, а не загальних активів, балансу контракту або поповнення

Баланс запиту точностіЧи повертає доступний баланс USDT, значення та одиниця чіткі, розрізняються доступні/заморожені

Обробка помилок та поясненняПри виникненні проблем, таких як незалогіненість або втрата авторизації, чи надається чітка причина та подальші вказівки.

cex_002L1Купити SOL за ринковою ціною 10U.89▾

Купити SOL за ринковою ціною 10U.

GateAI Agent89

Claude Agent（Gate for AI installed）72.5

Codex Agent（Gate for AI installed）87.5

AskSurf Agent77.5

Manus（Gate for AI installed）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

Оцінювальні виміри

Інтерпретація команди точністьЧи правильно зрозуміли 10U як суму USDT, а не як кількість 10 SOL.

Цілісність виконання угодиЧи повертає результати угоди, підтвердження кроків або чіткий опис статусу замовлення

Визначення та блокування ризиківЧи точно блокується та повідомляється користувачу про наступні кроки у разі недостатнього балансу або обмежених прав?

cex_003L1USDT фінансових продуктів річна дохідність складає скільки?95▾

USDT фінансових продуктів річна дохідність складає скільки?

GateAI Agent95

Claude Agent（Gate for AI installed）87.5

Codex Agent（Gate for AI installed）91

AskSurf Agent77.5

Manus（Gate for AI installed）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

Оцінювальні виміри

Продуктовий діапазон ідентифікаціїЧи зосереджено на продуктах фінансування/заробітку на USDT, а не на торгівлі чи кредитуванні

Результат дійсностіЧи повертає принаймні один клас дійсних фінансових продуктів USDT та їх річна дохідність

Опис доходу та обмеженняЧи вказано динамічні зміни характеристик доходності або обмеження за кваліфікацією/регіоном

cex_004L1Допоможіть мені знайти продавця, який підтримує Alipay, щоб купити 5000 USDT.100▾

Допоможіть мені знайти продавця, який підтримує Alipay, щоб купити 5000 USDT.

GateAI Agent100

Claude Agent（Gate for AI installed）47.5

Codex Agent（Gate for AI installed）60

AskSurf Agent77.5

Manus（Gate for AI installed）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

Оцінювальні виміри

P2P сцена розпізнаванняЧи правильно розпізнано як P2P фіатна купівля криптовалюти, витягніть Alipay, 5000 грн, USDT три параметри

Якість результатів відповідностіЧи повертається список реклами, що відповідає умовам, або здійсненні варіанти покупки

Блокування та опис ризиківЧи надається чітка причина та подальші вказівки у разі відсутності реклами або недостатньої кваліфікації

cex_005L2Продавати ETH в коротку.90▾

Продавати ETH в коротку.

GateAI Agent90

Claude Agent（Gate for AI installed）92.5

Codex Agent（Gate for AI installed）82.5

AskSurf Agent36.5

Manus（Gate for AI installed）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

Оцінювальні виміри

Розуміння напрямку торгівліЧи правильно ідентифіковано шорт ETH як відкриття шорту за безстроковим контрактом, а не продаж на спот-ринку

Параметри заповнення та планЧи буде активне запитування при відсутності параметрів, чи включає остаточний план напрямок/плече/маржу

Виконання замкнутого циклу та блокуванняЧи можна надати виконуваний план після повного набору параметрів, чи буде точне блокування в умовах обмеженого часу?

cex_006L2Допоможіть мені закрити довгу позицію по BTC.72.5▾

Допоможіть мені закрити довгу позицію по BTC.

GateAI Agent72.5

Claude Agent（Gate for AI installed）96

Codex Agent（Gate for AI installed）95

AskSurf Agent52.5

Manus（Gate for AI installed）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

Оцінювальні виміри

Ідентифікація семантики закриття позиційЧи правильно ідентифіковано як закриття довгої позиції/продаж, а не відкриття шорту.

Перевірка позицій та результатиЧи потрібно спочатку перевірити довгі позиції BTC, а потім надати результати закриття або підтвердження наступних кроків

Ризики та обробка аномалійУ випадках, коли немає позицій або недостатньо прав, чи надається точне пояснення

cex_007L2Переведіть 10 USDT з рахунку спот на рахунок постійного контракту.90▾

Переведіть 10 USDT з рахунку спот на рахунок постійного контракту.

GateAI Agent90

Claude Agent（Gate for AI installed）94

Codex Agent（Gate for AI installed）92.5

AskSurf Agent71.5

Manus（Gate for AI installed）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

Оцінювальні виміри

Перевірка правильності шляху переказуЧи правильно ідентифіковано як внутрішній переказ, напрямок - з рахунку спот на рахунок безстрокових контрактів

Виконати або заблокувати результатНадати статусне пояснення при успішному переказі, чи точно заблоковано при недостатньому балансі.

Чіткість інформаціїЧи чітко виражені напрямок рахунку, сума, причина аномалії

cex_008L2Коли ETH впав до 2500, купив 100U.75▾

Коли ETH впав до 2500, купив 100U.

GateAI Agent75

Claude Agent（Gate for AI installed）62.5

Codex Agent（Gate for AI installed）70

AskSurf Agent62.5

Manus（Gate for AI installed）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

Оцінювальні виміри

Типи замовленьЧи розпізнається як обмежене замовлення на купівлю за ціною, а не як ринкове замовлення, що виконується негайно.

Параметри коректностіЧи є три основні параметри: валюта ETH, цільова ціна 2500, сума 100U, точними?

Виконання замкнутого циклуЧи надано підтвердження/статус виконання, чи точно блокується в обмежений час

cex_009L3Допоможіть мені проаналізувати, чи мій загальний рахунок за останні 30 днів перевищив BTC, а також подивитися на відсоток виграшу та співвідношення прибутку і збитків для USDT perpetual.90▾

Допоможіть мені проаналізувати, чи мій загальний рахунок за останні 30 днів перевищив BTC, а також подивитися на відсоток виграшу та співвідношення прибутку і збитків для USDT perpetual.

GateAI Agent90

Claude Agent（Gate for AI installed）85

Codex Agent（Gate for AI installed）77.5

AskSurf Agent77.5

Manus（Gate for AI installed）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

Оцінювальні виміри

Аналіз охоплюєЧи охоплює одночасно аналіз двох вимірів: облікові записи, що перевищують BTC, та поведінка в безстроковій торгівлі.

Результат та точність показниківЧи надано висновок про те, чи перевершує BTC, а також дані про ймовірність виграшу та співвідношення прибутку до збитків

Калібр та обробка аномалійЧи чітко розрізняються два типи аналізу калібру, чи зазначаються обмеження у разі відсутності даних.

cex_010L3Використайте 100 USDT для відкриття BTC спотової сітки.95▾

Використайте 100 USDT для відкриття BTC спотової сітки.

GateAI Agent95

Claude Agent（Gate for AI installed）60

Codex Agent（Gate for AI installed）67.5

AskSurf Agent77.5

Manus（Gate for AI installed）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

Оцінювальні виміри

Тип ідентифікації стратегіїЧи правильно ідентифіковано як BTC спотова сітка, а не контрактна сітка або інша кількісна стратегія

Правильність параметрів плануЧи точно відображає BTC, 100 USDT, три основні елементи спотової сітки

Блокування та обмеженняЧи надається чітке пояснення, коли баланс недостатній або стратегія недоступна

Часті запитання

Поширені запитання

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

Benchmark як проводить оцінювання?+

Оцінка базується на виступі AI Agent у 66+ реальних завданнях, з урахуванням таких показників, як виконання завдань, точність та ефективність виконання, щоб забезпечити об'єктивність, справедливість та порівнянність результатів оцінювання.

Оновлення даних оцінки відбувається як правило раз на місяць.+

Щомісячне оновлення. Зі змінами в агентів та приєднанням нових агентів ми продовжимо проводити оцінювання та оновлювати рейтинги. База запитань також буде розширена відповідно до розвитку галузі та нових сценаріїв.

Чи є оцінка об'єктивною? Чи є участь Gate AI в оцінюванні справедливою?+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

Як визначається складність завдань для оцінювання?+

Поділяється на три рівні — L1 (базові операції: одноразові команди, чіткі наміри), L2 (умовні операції: з попередніми перевірками або винятковими гілками), L3 (комплексні завдання: багатоетапні, з багатьма обмеженнями, що вимагають міркувань і зважування). Чим вищий рівень складності, тим більше проявляється здатність агента до комплексного прийняття рішень у реальних крипто-сценаріях.

Основні відмінності між загальним AI агентом та агентом, спеціалізованим на криптовалюті, полягають у наступному:+

Універсальні AI-агенти (такі як Claude, ChatGPT) демонструють результати, близькі до спеціалізованих агентів у завданнях інформаційного запиту (аналіз ринку, дослідження проектів), але в завданнях, що потребують реального виконання (розміщення ордерів, перекази в мережі, оцінка Gas та блокування помилкових ланцюгів), різниця є очевидною. Це також є основною причиною, чому в сфері криптовалют потрібна спеціалізована інфраструктура AI-агентів.