AI-ABC

AI Agent Benchmarkfor

The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.

66+

Tâche d'évaluation

6

Dimension clé

9+

Agent

Mensuel

Mise à jour mensuelle

Dimensions

Critères d'évaluation

Couverture de l'ensemble du parcours utilisateur Crypto — des opérations de base sur CEX aux enquêtes complexes sur la chaîne, tout construit sur des scénarios réels.

10 tâches

CEX

Ordre au comptant, ouverture et fermeture de contrats, consultation de gestion de patrimoine, stratégie de grille, transfert de compte et analyse de portefeuille.

10 tâches

DEX

Swap sur la chaîne, comparaison des ponts inter-chaînes, contrôle du slippage, optimisation du routage multi-étapes et évaluation des risques de contrat.

10 tâches

portefeuille

Transferts multi-chaînes, estimation de la réserve de Gas, vérification du format d'adresse, blocage des chaînes incorrectes et transferts conditionnels.

12 tâches

Analyse du marché

Analyse technique en temps réel, RSI / K lignes, évaluation de la relation entre le volume et le prix, comparaison de plusieurs devises et comparaison de la volatilité.

12 tâches

Recherche de projet

Analyse de l'économie des tokens, évaluation des cycles narratifs, détection de Rug Pull, comparaison des concurrents et rapport de recherche.

12 tâches

Suivi sur la chaîne

Analyse des adresses et des profits/pertes, suivi des baleines, signaux Smart Money, surveillance de la sécurité des protocoles.

L1

Opérations de base

Instructions simples, intentions claires. Par exemple, vérifier le solde, consulter les prix du marché, passer une commande simple.

L2

Opération conditionnelle

Inclut des vérifications préalables ou des branches d'exception. Par exemple, blocage en cas de solde insuffisant, complétion des paramètres, identification des risques de chaînes incorrectes.

L3

Tâche composite

Multiples étapes, multiples contraintes, nécessitant un raisonnement et un arbitrage. Par exemple, le chemin optimal inter-chaînes, le transfert intégral en conservant le Gas.

Résultats de mars 2026

Classement des évaluations

Score pondéré basé sur 6 dimensions. Tous les examens utilisent un mécanisme de consensus à double modèle, complété par un arbitrage humain.

#AgenttypeTotalCEXDEXportefeuilleAnalyse du marchéRecherche de projetSuivi sur la chaîne
1
GateAI Agent
IA générale83.189.782.461.586.892.383.5
2
Claude AgentGate for AI installé)
IA générale82.879.281.682.283.289.679.9
3
Codex AgentGate for AI installé)
IA générale81.280.672.87981.586.884.4
4
AskSurf Agent
Crypto IA77.575.875.857.583.795.483
5
ManusGate for AI installé)
IA générale74.374.574.577.373.778.468.1
6
Binance Agent
Crypto IA70.159.772.363.969.480.372.6
7
Claude Agent
IA générale68.259.458.65973.180.973.6
8
Bitget Agent
Crypto IA62.266.144.548.97280.357.2
9
Codex Agent
IA générale52.251.446.55560.45742.4
CEXDEXportefeuilleAnalyse du marchéRecherche de projetSuivi sur la chaîne
GateAI Agent83.1
Claude Agent(Gate for AI installé)82.8
Codex Agent(Gate for AI installé)81.2

Gate AI Agent se classe premier dans cette évaluation. En tant qu'agent natif profondément intégré à la bourse, il se classe premier dans les trois dimensions clés : le trading CEX, le trading DEX et l'analyse de marché. Cette évaluation a inclus un total de 9 agents, couvrant 6 scénarios : trading CEX, trading DEX, opérations de portefeuille, analyse de marché, enquêtes on-chain et recherche de projets, avec une notation basée sur un mécanisme de consensus à double modèle, complétée par une vérification manuelle. La performance de Gate AI Agent selon ces critères est une validation complète de ses capacités natives Web3.

Cadre d'évaluation

Méthodologie d'évaluation

Chaque question est notée indépendamment selon 2 à 3 dimensions d'évaluation, en utilisant un audit de consensus à double modèle, tous les critères et poids étant entièrement publics.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Identification et blocage des risques

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS
1.0
Complètement conforme à tous les critères d'évaluation.
PARTIAL
0.6
La direction est correcte, mais l'exécution n'est pas complète.
FAIL
0.0
Erreur, fabrication ou risque de sécurité

Évaluation de consensus à double modèle

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

Score global pondéré

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Catégorie d'évaluation des agents

Agent AI de Gate

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Agent IA Générique

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Agent AI Crypto tiers.

Industry's other Crypto-specific AI Agents

Détails de l'évaluation du sujet

Détails de l'évaluation par question

Cliquez sur n'importe quel sujet pour développer et voir les scores et les dimensions d'évaluation de chaque Agent.

CEX

DEX

portefeuille

Analyse du marché

Recherche de projet

Suivi sur la chaîne

cex_001L1Aidez-moi à vérifier combien de USDT il me reste dans mon compte au comptant.100
Aidez-moi à vérifier combien de USDT il me reste dans mon compte au comptant.
GateAI Agent100
Claude Agent(Gate for AI installé)95
Codex Agent(Gate for AI installé)82.5
AskSurf Agent36.5
Manus(Gate for AI installé)94
Binance Agent87.5
Claude Agent36.5
Bitget Agent77.5
Codex Agent36.5
Critères d'évaluation
Compréhension de l'intention du compteIdentification correcte en tant que consultation du solde du compte au comptant, et non en tant que total des actifs, solde des contrats ou opération de dépôt.
Vérification de la précision du soldeDoit retourner le solde disponible en USDT, avec des valeurs et des unités claires, en distinguant entre disponible / gelé.
Gestion des exceptions et explicationsEn cas de problèmes tels que non connecté, autorisation expirée, etc., est-ce que des raisons claires et des indications sur les prochaines étapes sont fournies ?
cex_002L1Acheter 10 $ de SOL au prix du marché.89
Acheter 10 $ de SOL au prix du marché.
GateAI Agent89
Claude Agent(Gate for AI installé)72.5
Codex Agent(Gate for AI installé)87.5
AskSurf Agent77.5
Manus(Gate for AI installé)90
Binance Agent67.5
Claude Agent77.5
Bitget Agent42.5
Codex Agent36.5
Critères d'évaluation
Instruction de précision d'analyseCompréhension correcte de 10U comme montant en USDT, et non comme quantité de 10 SOL.
Intégrité de l'exécution des transactionsRetourne-t-il les résultats des transactions, les étapes de confirmation ou une explication claire de l'état de la commande ?
Identification et blocage des risquesLorsqu'il y a un solde insuffisant ou des autorisations limitées, est-ce que le blocage est effectué avec précision et l'utilisateur est-il informé de la prochaine étape ?
cex_003L1Quel est le taux de rendement annuel des produits d'investissement USDT ?95
Quel est le taux de rendement annuel des produits d'investissement USDT ?
GateAI Agent95
Claude Agent(Gate for AI installé)87.5
Codex Agent(Gate for AI installé)91
AskSurf Agent77.5
Manus(Gate for AI installé)72.5
Binance Agent65
Claude Agent77.5
Bitget Agent69
Codex Agent42.5
Critères d'évaluation
Identification de la gamme de produitsSe concentre-t-il sur les produits d'investissement/accumulation de USDT, plutôt que sur le trading ou le prêt ?
Résultat de validitéRetourne-t-il au moins une catégorie de produits d'investissement USDT valides et leur taux de rendement annuel ?
Explication des rendements et limitationsIndique-t-il les caractéristiques dynamiques de variation des rendements ou des restrictions de qualification/région ?
cex_004L1Aidez-moi à trouver un vendeur qui accepte Alipay pour acheter 5000 USDT.100
Aidez-moi à trouver un vendeur qui accepte Alipay pour acheter 5000 USDT.
GateAI Agent100
Claude Agent(Gate for AI installé)47.5
Codex Agent(Gate for AI installé)60
AskSurf Agent77.5
Manus(Gate for AI installé)55
Binance Agent40
Claude Agent36.5
Bitget Agent42.5
Codex Agent71.5
Critères d'évaluation
P2P scène de reconnaissanceEst-ce que cela est correctement identifié comme un achat de crypto-monnaie en fiat P2P, extraire Alipay, 5000 yuan, USDT trois paramètres
Qualité des résultats de correspondanceRetourne-t-il une liste d'annonces conformes aux conditions ou un plan d'achat exécutable ?
Blocage et explication des risquesLorsqu'il n'y a pas de publicité ou que les critères ne sont pas remplis, est-ce qu'une raison claire et des indications sur les prochaines étapes sont fournies ?
cex_005L2Vendre à découvert ETH90
Vendre à découvert ETH
GateAI Agent90
Claude Agent(Gate for AI installé)92.5
Codex Agent(Gate for AI installé)82.5
AskSurf Agent36.5
Manus(Gate for AI installé)75
Binance Agent71.5
Claude Agent52.5
Bitget Agent52.5
Codex Agent36.5
Critères d'évaluation
Compréhension de la direction de la transactionEst-il correct d'identifier l'ouverture d'une position courte sur l'ETH en tant que contrat perpétuel, plutôt que de vendre le spot ?
Paramètres de complétion et planLorsqu'il manque des paramètres, faut-il poser des questions proactives ? Le plan final inclut-il la direction/le levier/la marge ?
Exécution de la boucle fermée et blocageUne fois que tous les paramètres sont complets, peut-on fournir un plan exécutable, et est-il possible de bloquer avec précision en cas de contrainte de temps ?
cex_006L2Aidez-moi à liquider ma position longue sur BTC.72.5
Aidez-moi à liquider ma position longue sur BTC.
GateAI Agent72.5
Claude Agent(Gate for AI installé)96
Codex Agent(Gate for AI installé)95
AskSurf Agent52.5
Manus(Gate for AI installé)82.5
Binance Agent51.5
Claude Agent36.5
Bitget Agent89
Codex Agent61.5
Critères d'évaluation
Reconnaissance sémantique de la clôtureEst-ce que cela est correctement identifié comme clôture de position longue / vente, et non comme une ouverture de position courte ?
Vérification des positions et résultatsFaut-il d'abord vérifier la position longue BTC, puis donner le résultat de la clôture ou la confirmation de l'étape suivante ?
Risques et gestion des anomaliesDans des scénarios tels que l'absence de position ou des autorisations insuffisantes, fournir une explication précise.
cex_007L2Transférer 10 USDT du compte au comptant vers le compte de contrat perpétuel.90
Transférer 10 USDT du compte au comptant vers le compte de contrat perpétuel.
GateAI Agent90
Claude Agent(Gate for AI installé)94
Codex Agent(Gate for AI installé)92.5
AskSurf Agent71.5
Manus(Gate for AI installé)92.5
Binance Agent71.5
Claude Agent67.5
Bitget Agent69
Codex Agent52.5
Critères d'évaluation
Vérification de la validité du chemin de transfertA-t-il été correctement identifié comme un transfert interne, avec la direction du compte au comptant vers le compte de contrat perpétuel ?
Exécution ou blocage des résultatsFournir une explication de l'état lors du transfert réussi, vérifier si le blocage est précis en cas de solde insuffisant.
Clarté de l'informationLa direction du compte, le montant et la raison de l'anomalie sont-ils clairement exprimés ?
cex_008L2Achetez 100U lorsque l'ETH tombe à 2500.75
Achetez 100U lorsque l'ETH tombe à 2500.
GateAI Agent75
Claude Agent(Gate for AI installé)62.5
Codex Agent(Gate for AI installé)70
AskSurf Agent62.5
Manus(Gate for AI installé)59
Binance Agent37.5
Claude Agent77.5
Bitget Agent62.5
Codex Agent62.5
Critères d'évaluation
Type de commande identifiéEst-ce reconnu comme un ordre d'achat à prix limite atteint, et non comme un ordre au prix du marché exécuté immédiatement ?
Paramètres de validitéLes trois paramètres clés, à savoir la cryptomonnaie ETH, le prix cible de 2500 et le montant de 100U, sont-ils tous exacts ?
Exécution de la boucle ferméeEst-ce que l'état de confirmation/exécution est donné, et est-ce que le blocage est précis en cas de contrainte de temps ?
cex_009L3Aidez-moi à analyser si mon compte total des 30 derniers jours a surpassé le BTC, et jetez un œil au taux de réussite et au ratio de gains/pertes des contrats perpétuels USDT.90
Aidez-moi à analyser si mon compte total des 30 derniers jours a surpassé le BTC, et jetez un œil au taux de réussite et au ratio de gains/pertes des contrats perpétuels USDT.
GateAI Agent90
Claude Agent(Gate for AI installé)85
Codex Agent(Gate for AI installé)77.5
AskSurf Agent77.5
Manus(Gate for AI installé)49
Binance Agent27.5
Claude Agent62.5
Bitget Agent77.5
Codex Agent77.5
Critères d'évaluation
Analyse de la portéeCouvre-t-elle simultanément les deux dimensions de la performance des comptes par rapport au BTC et de l'analyse des comportements de trading perpétuels ?
Résultats et précision des indicateursIndiquez si une conclusion sur la surperformance par rapport au BTC a été donnée, ainsi que les données sur le taux de réussite et le ratio gains/pertes.
Calibre et gestion des exceptionsEst-il clair de distinguer les deux types de calibres d'analyse, et lorsque les données sont absentes, est-il précisé les limitations respectives ?
cex_010L3Ouvrir un réseau de grille BTC avec 100 USDT.95
Ouvrir un réseau de grille BTC avec 100 USDT.
GateAI Agent95
Claude Agent(Gate for AI installé)60
Codex Agent(Gate for AI installé)67.5
AskSurf Agent77.5
Manus(Gate for AI installé)75
Binance Agent77.5
Claude Agent69
Bitget Agent79
Codex Agent36.5
Critères d'évaluation
Type de stratégie identificationEst-ce que cela a été correctement identifié comme un réseau de grille BTC au comptant, et non comme un réseau de grille de contrat ou une autre stratégie quantitative ?
Correctness des paramètres du planReflète-t-il avec précision les trois éléments : BTC, 100 USDT, et le grid trading au comptant ?
Blocage et restrictionsLorsqu'il y a un solde insuffisant ou qu'une stratégie n'est pas disponible, est-ce qu'une explication claire est fournie ?

FAQ

Questions fréquentes

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

Comment le Benchmark est-il évalué ?+

L'évaluation est basée sur la performance de l'agent IA dans plus de 66 tâches réelles, en tenant compte de plusieurs indicateurs tels que le taux d'achèvement des tâches, la précision et l'efficacité d'exécution, afin de garantir que les résultats de l'évaluation soient objectifs, équitables et comparables.

Les données d'évaluation sont mises à jour tous les combien de temps ?+

Mise à jour mensuelle. Avec l'itération et la mise à niveau des différents Agents et l'ajout de nouveaux Agents, nous continuerons à effectuer des évaluations et à mettre à jour le classement. La banque de questions sera également élargie en fonction de l'évolution du secteur et de nouveaux scénarios.

La notation est-elle objective ? La participation de Gate AI à l'évaluation est-elle équitable ?+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

Comment la difficulté des tâches d'évaluation est-elle classée ?+

Divisé en trois niveaux - L1 (opérations de base : instructions simples, intentions claires), L2 (opérations conditionnelles : avec vérifications préalables ou branches exceptionnelles), L3 (tâches complexes : plusieurs étapes, multiples contraintes, nécessitant un raisonnement et un arbitrage). Plus la difficulté est élevée, plus elle peut refléter la capacité de prise de décision globale de l'Agent dans des scénarios Crypto réels.

Les principales différences entre un agent AI général et un agent spécialisé en crypto sont les suivantes :+

Les agents d'IA généraux (comme Claude, ChatGPT) montrent des performances proches des agents spécialisés dans les tâches de recherche d'informations (analyse de marché, recherche de projets), mais il existe un écart évident dans les tâches opérationnelles nécessitant une exécution réelle (passer des ordres de trading, effectuer des transferts sur la chaîne, estimer le Gas et bloquer les chaînes erronées). C'est également la raison principale pour laquelle le domaine de la crypto nécessite une infrastructure d'agents d'IA spécialisés.