Elon Musk's xAI vient de lancer leur Grok 4.1 Fast API, et les benchmarks sont assez étonnants. Il domine le classement τ²-Bench spécifiquement pour les tâches de télécommunications (scénarios d'utilisation d'outils agentiques), devançant Gemini 3 Pro. Ce qui rend cela intéressant, c'est comment cela repousse les limites de la performance de pointe pour les applications API du monde réel.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
5 J'aime
Récompense
5
2
Reposter
Partager
Commentaire
0/400
LiquidityHunter
· Il y a 4h
Grok a encore publié une nouvelle version, Musk ne peut vraiment pas rester inactif...
---
La mission telecom surpasse-t-elle gemini ? Ces données sont-elles réelles ou encore en train de s'auto-congratuler ?
---
Je n'ai pas trop compris la partie sur l'équation tau, quelqu'un peut-il expliquer simplement comment ça a pris de l'avance ?
---
L'application de l'API dans le monde réel a l'air bien, mais le fait qu'elle fonctionne de manière stable est la clé.
---
Le fast API est en effet intéressant, c'est plus pratique que de simples indicateurs de performance.
---
Encore une fois en tête du classement, il faut voir combien de temps cela peut durer...
Voir l'originalRépondre0
FUD_Vaccinated
· Il y a 4h
grok revient à la charge, mais qui utilise vraiment ce classement τ²-Bench...
Elon Musk's xAI vient de lancer leur Grok 4.1 Fast API, et les benchmarks sont assez étonnants. Il domine le classement τ²-Bench spécifiquement pour les tâches de télécommunications (scénarios d'utilisation d'outils agentiques), devançant Gemini 3 Pro. Ce qui rend cela intéressant, c'est comment cela repousse les limites de la performance de pointe pour les applications API du monde réel.