The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.
Copertura degli utenti Crypto su tutta la catena — dalle operazioni di base CEX alle complesse indagini on-chain, tutto costruito su scenari reali.
Ordine spot, apertura e chiusura di contratti, consultazione della gestione patrimoniale, strategia a griglia, trasferimento di conto e analisi del portafoglio.
Swap on-chain, confronto dei prezzi dei bridge cross-chain, controllo dello slippage, ottimizzazione del routing multi-step e valutazione del rischio dei contratti.
Multi-chain transfer, stima della riserva di Gas, verifica del formato dell'indirizzo, blocco delle catene errate e trasferimenti condizionati.
Analisi in tempo reale del mercato, analisi tecnica RSI / K-line, valutazione della relazione tra volume e prezzo, confronto tra più criptovalute e analisi della volatilità.
Analisi dell'economia dei token, valutazione del ciclo narrativo, rilevamento di Rug Pull, confronto con i concorrenti e rapporto di ricerca.
Analisi dell'immagine dell'indirizzo e dell'analisi dei profitti e delle perdite, tracciamento dei grandi investitori, segnali di Smart Money, monitoraggio della sicurezza del protocollo.
Istruzioni passo-passo, intenzioni chiare. Come controllare il saldo, visualizzare i prezzi di mercato, effettuare un ordine semplice.
Contiene controlli preliminari o rami di eccezione. Ad esempio, blocco per saldo insufficiente, completamento dei parametri, identificazione del rischio di catena errata.
Molti passaggi, molte restrizioni, è necessario ragionare e bilanciare. Ad esempio, il percorso ottimale cross-chain, il trasferimento completo mantenendo il Gas.
Punteggio ponderato complessivo su 6 dimensioni. Tutte le valutazioni utilizzano un meccanismo di consenso a doppio modello, supportato da arbitrato umano.
| # | Agente | tipo | Punteggio totale | CEX | DEX | portafoglio | Analisi di mercato | Ricerca del progetto | tracciamento on-chain |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | AI generico | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(Gate for AI installato) | AI generico | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(Gate for AI installato) | AI generico | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | Intelligenza Artificiale Crypto | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(Gate for AI installato) | AI generico | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | Intelligenza Artificiale Crypto | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | AI generico | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | Intelligenza Artificiale Crypto | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | AI generico | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
Gate AI Agent si è classificato al primo posto in questa valutazione. Come agente nativo profondamente integrato nell'exchange, si è posizionato al primo posto in tre dimensioni chiave: trading CEX, trading DEX e analisi di mercato. In questa valutazione sono stati inclusi 9 agenti, con argomenti che coprono 6 scenari principali: trading CEX, trading DEX, operazioni con portafogli, analisi di mercato, indagini on-chain e ricerca di progetti, con punteggi basati su un meccanismo di consenso a doppio modello e verifiche manuali. Le prestazioni del Gate AI Agent secondo questi standard rappresentano una completa verifica delle sue capacità native Web3.
Ogni domanda viene valutata in modo indipendente su 2-3 dimensioni di valutazione, utilizzando un audit di consenso a doppio modello, con tutti i benchmark e i pesi completamente pubblici.
Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?
Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?
Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?
When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?
Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.
Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.
Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities
Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed
Industry's other Crypto-specific AI Agents
Clicca su qualsiasi argomento per espandere e visualizzare i punteggi e le dimensioni di valutazione di ciascun agente.