The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.
Покриття користувачів Crypto на всіх етапах — від базових операцій CEX до складних розслідувань на блокчейні, все побудовано на реальних сценаріях.
Спотове замовлення, відкриття та закриття контрактів, перевірка фінансових продуктів, сіткова стратегія, перекази між рахунками та аналіз портфоліо.
Онлайн Swap, кросс-ланковий міст, порівняння цін, контроль сліпих точок, оптимізація багатоступеневих маршрутів та оцінка ризиків контрактів.
Багатоланцюгові перекази, оцінка резерву Gas, перевірка формату адреси, блокування помилкових ланцюгів та умовні перекази.
Реальний ринок, технічний аналіз RSI / K-ліній, оцінка співвідношення обсягу та ціни, порівняння кількох валют та аналіз волатильності.
Аналіз токеноміки, оцінка циклів наративу, виявлення Rug Pull, порівняння з конкурентами та дослідницький звіт.
Аналіз адрес, прибутків та збитків, відстеження великих китів, сигнали Smart Money, моніторинг безпеки протоколу.
Одноразові команди, чіткі наміри. Наприклад, перевірка балансу, перегляд цін на ринку, просте оформлення замовлення.
Містить попередні перевірки або виняткові гілки. Наприклад, блокування через недостатній баланс, доповнення параметрів, виявлення ризиків помилкових ланцюгів.
Багатоетапні, з багатьма обмеженнями, вимагають міркувань і оцінок. Наприклад, оптимальний шлях між ланцюгами, повний переказ збереження Gas.
Загальний зважений бал за 6 основними вимірами. Усі оцінювання проводяться за допомогою двомодельного механізму консенсусу з додатковим ручним арбітражем.
| # | Агент | тип | Загальний бал | CEX | DEX | гаманець | Аналіз ринку | Дослідження проекту | Ланцюгова відстеження |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | Універсальний ШІ | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(Gate for AI installed) | Універсальний ШІ | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(Gate for AI installed) | Універсальний ШІ | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | Крипто ШІ | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(Gate for AI installed) | Універсальний ШІ | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | Крипто ШІ | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | Універсальний ШІ | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | Крипто ШІ | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | Універсальний ШІ | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
Gate AI Agent у цьому оцінюванні зайняв перше місце в загальному рейтингу. Як глибоко інтегрований у біржу рідний агент, він зайняв перше місце за трьома основними вимірами: CEX торгівля, DEX торгівля та аналіз ринку. У цьому оцінюванні було включено 9 агентів, теми охоплюють 6 основних сценаріїв: CEX торгівля, DEX торгівля, операції з гаманцем, аналіз ринку, дослідження в ланцюгу та дослідження проектів, оцінка проводилася за допомогою двомодельного механізму консенсусу з подальшою ручною перевіркою. Виступ Gate AI Agent за цими стандартами є повною перевіркою його рідних можливостей у Web3.
Кожне питання оцінюється за 2-3 незалежними критеріями, використовуючи двомодельний консенсусний аудит, всі еталони та ваги повністю відкриті.
Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?
Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?
Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?
When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?
Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.
Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.
Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities
Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed
Industry's other Crypto-specific AI Agents
Натисніть на будь-яке питання, щоб розгорнути та переглянути бали та критерії оцінки кожного агента.