Heure de Pékin : 6 janvier, le PDG de Nvidia, Huang Renxun, vêtu de son emblématique veste en cuir, se tient à nouveau sur la scène principale du CES2026.
Lors du CES 2025, Nvidia a présenté le chipset Blackwell en production de masse et une pile technologique complète d’IA physique. Lors de la conférence, Huang Renxun a souligné qu’une « ère de l’IA physique » était en train de s’ouvrir. Il a esquissé un avenir plein d’imagination : des voitures autonomes dotées de capacités de raisonnement, des robots capables de comprendre et de réfléchir, des AIAgent (agents intelligents) capables de traiter des tâches de contexte long avec des millions de tokens.
Un an s’est écoulé, et l’industrie de l’IA a connu une évolution révolutionnaire. Lors de la revue de cette année, Huang Renxun a mis en avant l’importance des modèles open source.
Il a déclaré que des modèles de raisonnement open source comme DeepSeek R1 ont permis à toute l’industrie de prendre conscience : lorsque l’ouverture et la collaboration mondiale sont réellement lancées, la diffusion de l’IA s’accélère énormément. Bien que les modèles open source soient encore environ six mois derrière les modèles de pointe en termes de capacités globales, ils rattrapent chaque semestre, et le volume de téléchargements et d’utilisations connaît une croissance explosive.
Comparé à 2025, où l’on mettait davantage en avant la vision et les possibilités, cette fois Nvidia commence à aborder systématiquement la question du « comment faire » : autour de l’IA de raisonnement, combler le déficit en puissance de calcul, réseau et infrastructure de stockage nécessaires pour une exécution longue, réduire considérablement le coût de raisonnement, et intégrer directement ces capacités dans des scénarios réels comme la conduite autonome et la robotique.
Lors de son discours au CES, Huang Renxun a développé trois axes principaux :
●Au niveau des systèmes et de l’infrastructure, Nvidia a reconstruit l’architecture de puissance de calcul, réseau et stockage pour répondre aux besoins de raisonnement à long terme. En se concentrant sur la plateforme Rubin, NVLink 6, Spectrum-X Ethernet et la plateforme de mémoire pour contexte de raisonnement, ces innovations ciblent directement les goulots d’étranglement tels que le coût élevé du raisonnement, la difficulté à maintenir le contexte, et la limitation de l’échelle, afin de résoudre les problèmes de IA qui réfléchit plus longtemps, qui coûte moins cher et qui peut fonctionner plus longtemps.
●Au niveau des modèles, Nvidia place le raisonnement / AI agentique au cœur de sa stratégie. Grâce à des modèles et outils comme Alpamayo, Nemotron, Cosmos Reason, elle pousse l’IA de la simple « génération de contenu » vers des agents capables de réfléchir en continu, passant d’un « modèle à réponse unique » à un « agent pouvant fonctionner à long terme ».
●Au niveau des applications et de la mise en œuvre, ces capacités sont directement intégrées dans des scénarios réels comme la conduite autonome et la robotique. Que ce soit le système de conduite autonome piloté par Alpamayo ou l’écosystème robotique avec GR00T et Jetson, tous collaborent avec des fournisseurs cloud et des plateformes d’entreprise pour déployer à grande échelle.
01 De la feuille de route à la production : Rubin dévoile pour la première fois ses performances
Lors de ce CES, Nvidia a dévoilé pour la première fois en détail les caractéristiques techniques de l’architecture Rubin.
Dans son discours, Huang Renxun a commencé par le concept de Test-time Scaling (extension lors de l’inférence), qui peut se comprendre comme : pour rendre l’IA plus intelligente, il ne suffit pas de lui faire « lire plus dur », mais de lui laisser « réfléchir un peu plus quand il rencontre un problème ».
Autrefois, l’amélioration des capacités de l’IA reposait principalement sur l’augmentation de la puissance de calcul lors de la phase d’entraînement, en faisant des modèles de plus en plus grands ; désormais, la nouveauté est que même si le modèle ne continue pas à grossir, en lui donnant plus de temps et de puissance à chaque utilisation pour réfléchir, ses performances s’améliorent nettement.
Comment rendre « l’IA qui réfléchit plus longtemps » économiquement viable ? La nouvelle plateforme de calcul IA de génération suivante de l’architecture Rubin est conçue pour répondre à cette question.
Huang Renxun a présenté une plateforme de calcul IA complète de nouvelle génération, combinant Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6, pour révolutionner le coût du raisonnement.
Le GPU Rubin de Nvidia est le cœur de calcul IA de l’architecture Rubin, visant à réduire significativement le coût unitaire du raisonnement et de l’entraînement.
En résumé, la tâche principale du GPU Rubin est de « rendre l’IA plus économique et plus intelligente ».
La capacité centrale du GPU Rubin réside dans le fait qu’un seul GPU peut faire plus de choses. Il peut traiter davantage de tâches de raisonnement à la fois, se souvenir d’un contexte plus long, et communiquer plus rapidement avec d’autres GPU, ce qui signifie que de nombreux scénarios auparavant nécessitant « plusieurs cartes » peuvent désormais être réalisés avec moins de GPU.
Résultat : le raisonnement devient non seulement plus rapide, mais aussi nettement moins cher.
Huang Renxun a revu en direct les paramètres matériels du NVL72 de l’architecture Rubin : 220 billions de transistors, une bande passante de 260 TB/s, c’est la première plateforme de calcul confidentiel à l’échelle rack dans l’industrie.
Globalement, par rapport à Blackwell, le GPU Rubin réalise une avancée générationnelle sur des indicateurs clés : la performance de raisonnement NVFP4 atteint 50 PFLOPS (5 fois), la performance d’entraînement 35 PFLOPS (3,5 fois), la bande passante mémoire HBM4 monte à 22 TB/s (2,8 fois), et la bande passante d’interconnexion NVLink d’un seul GPU double pour atteindre 3,6 TB/s.
Ces améliorations permettent à un seul GPU de traiter plus de tâches de raisonnement et un contexte plus long, réduisant fondamentalement la dépendance au nombre de GPU.
Le Vera CPU, conçu spécifiquement pour le déplacement de données et le traitement agentique, intègre 88 cœurs Olympus développés par Nvidia, avec 1,5 To de mémoire système (trois fois celle du précédent CPU Grace), et permet une mémoire cohérente entre CPU et GPU via la technologie NVLink-C2C à 1,8 TB/s.
Contrairement aux CPU génériques traditionnels, Vera se concentre sur la gestion des données dans les scénarios d’inférence IA et la logique de raisonnement multi-étapes, agissant essentiellement comme le coordinateur efficace du système pour faire « réfléchir l’IA plus longtemps ».
NVLink 6, avec une bande passante de 3,6 TB/s et une capacité de calcul réseau, permet aux 72 GPU de l’architecture Rubin de fonctionner en synergie comme un « super GPU », ce qui est la clé pour réduire le coût du raisonnement.
Ainsi, les données et résultats intermédiaires nécessaires à l’IA lors du raisonnement peuvent circuler rapidement entre GPU, sans attendre, copier ou recalculer.
Dans l’architecture Rubin, NVLink-6 gère la collaboration interne des GPU, BlueField-4 s’occupe de la gestion du contexte et des données, et ConnectX-9 assure la connectivité réseau haute vitesse externe. Cela garantit une communication efficace entre le système Rubin, d’autres racks, centres de données et plateformes cloud, condition préalable au bon déroulement des entraînements et inférences à grande échelle.
Par rapport à la génération précédente, Nvidia fournit des chiffres concrets : par rapport à la plateforme NVIDIA Blackwell, le coût par token lors de l’inférence peut être réduit jusqu’à 10 fois, et le nombre de GPU nécessaire pour entraîner un modèle MoE (mixture of experts) est réduit à un quart.
Nvidia indique que Microsoft a déjà prévu de déployer des dizaines de milliers de puces Vera Rubin dans sa prochaine usine d’IA Fairwater, et que des fournisseurs cloud comme CoreWeave proposeront des instances Rubin à partir du second semestre 2026. Cette infrastructure « qui fait réfléchir l’IA plus longtemps » passe ainsi du stade de démonstration technologique à celui de commercialisation à grande échelle.
02 Comment résoudre le « goulot d’étranglement » du stockage ?
Faire réfléchir l’IA « plus longtemps » reste un défi technologique clé : où placer les données de contexte ?
Lorsque l’IA doit gérer des tâches complexes nécessitant plusieurs dialogues ou étapes de raisonnement, elle génère une grande quantité de données de contexte (KV Cache). Les architectures traditionnelles doivent soit les stocker dans la mémoire GPU coûteuse et limitée, soit dans un stockage ordinaire (trop lent). Si ce « goulot d’étranglement » n’est pas résolu, même la GPU la plus puissante sera freinée.
Pour répondre à ce problème, Nvidia a dévoilé pour la première fois lors de ce CES une plateforme de stockage de mémoire de contexte d’inférence pilotée par BlueField-4, appelée Inference Context Memory Storage Platform, dont l’objectif est de créer une « troisième couche » entre la mémoire GPU et le stockage traditionnel. Elle doit être suffisamment rapide, avec une capacité suffisante, et supporter une exécution longue de l’IA.
Techniquement, cette plateforme n’est pas un composant unique, mais le résultat d’une conception collaborative :
BlueField-4 accélère la gestion et l’accès aux données de contexte au niveau matériel, réduisant les transferts de données et la surcharge système ;
Spectrum-X Ethernet fournit un réseau haute performance, supportant le partage de données à haute vitesse via RDMA ;
Les composants logiciels DOCA, NIXL et Dynamo optimisent la planification, réduisent la latence et augmentent le débit global.
On peut comprendre que cette plateforme étend les données de contexte, qui ne pouvaient auparavant être stockées que dans la mémoire GPU, à une « couche mémoire » indépendante, rapide et partageable. D’un côté, elle soulage la GPU, et de l’autre, elle permet un partage rapide de ces informations de contexte entre plusieurs nœuds et agents intelligents.
Concrètement, Nvidia indique que dans certains scénarios, cette approche peut augmenter jusqu’à 5 fois le nombre de tokens traités par seconde, tout en optimisant l’efficacité énergétique.
Huang Renxun a insisté à plusieurs reprises lors de la présentation sur le fait que l’IA évolue d’un « chatbot à conversation unique » vers un véritable agent intelligent : il faut qu’elle comprenne le monde réel, qu’elle raisonne en continu, qu’elle utilise des outils pour accomplir ses tâches, tout en conservant une mémoire à court et long terme. C’est précisément la caractéristique centrale de l’Agentic AI. La plateforme de stockage de mémoire de contexte d’inférence est conçue pour cette IA à fonctionnement long, qui réfléchit en boucle, en augmentant la capacité de contexte et en accélérant le partage entre nœuds, pour rendre les dialogues multi-tours et la collaboration multi-agent plus stables, sans ralentissement.
03
Nouvelle génération de DGX SuperPOD : 576 GPU en collaboration
Lors de ce CES, Nvidia a annoncé le lancement d’une nouvelle génération de DGX SuperPOD basée sur l’architecture Rubin, étendant Rubin d’un seul rack à une solution complète pour tout le centre de données.
Qu’est-ce que le DGX SuperPOD ?
Si le Rubin NVL72 est un « super rack » contenant 72 GPU, alors le DGX SuperPOD consiste à connecter plusieurs de ces racks pour former un cluster de calcul IA à plus grande échelle. La version présentée comprend 8 racks Vera Rubin NVL72, soit 576 GPU en collaboration.
Lorsque la taille des tâches IA continue de croître, un seul rack de 576 GPU peut ne plus suffire. Par exemple, pour entraîner des modèles ultra-massifs, servir des milliers d’agents intelligents, ou traiter des tâches complexes avec des millions de tokens de contexte, il faut plusieurs racks en collaboration. Le DGX SuperPOD est conçu pour ces scénarios, en proposant une solution standardisée.
Pour les entreprises et fournisseurs cloud, le DGX SuperPOD offre une infrastructure IA prête à l’emploi, sans avoir à se soucier de la connexion de centaines de GPU, de la configuration réseau ou de la gestion du stockage.
Les cinq composants clés de la nouvelle génération DGX SuperPOD :
○8 racks Vera Rubin NVL72 – cœur de calcul, chaque rack avec 72 GPU, totalisant 576 GPU ;
○Réseau étendu NVLink 6 – permettant à ces 8 racks de fonctionner comme un « super GPU » ;
○Plateforme de stockage de mémoire de contexte d’inférence – pour les longues tâches de raisonnement ;
○Logiciel Nvidia Mission Control – gestion de la planification, surveillance et optimisation du système.
Cette mise à jour repose sur une architecture centrée sur le système NVL72. Chaque NVL72 est une super machine IA, connectée via NVLink 6, capable de réaliser des tâches massives de raisonnement et d’entraînement dans un seul rack. Le nouveau DGX SuperPOD, composé de plusieurs NVL72, forme un cluster opérationnel à long terme.
Lorsque la capacité de calcul s’étend du « seul rack » au « multi-racks », un nouveau goulot d’étranglement apparaît : comment transférer efficacement d’énormes volumes de données entre racks ? Nvidia a également lancé lors de ce CES un nouveau commutateur Ethernet basé sur le chipset Spectrum-6, intégrant pour la première fois la technologie « CPO » (co-packaged optics).
En résumé, cette technologie consiste à intégrer directement dans le commutateur optique des modules optiques, réduisant la distance de transmission de plusieurs mètres à quelques millimètres, ce qui diminue la consommation d’énergie et la latence, tout en améliorant la stabilité globale du système.
04 La famille open source d’IA de Nvidia : tout du stockage au code
Lors de ce CES, Huang Renxun a annoncé l’expansion de son écosystème de modèles open source (Open Model Universe), avec une série de modèles, jeux de données, bibliothèques de code et outils. Cet écosystème couvre six grands domaines : IA biomédicale (Clara), simulation physique (Earth-2), IA agentique (Nemotron), IA physique (Cosmos), robotique (GR00T) et conduite autonome (Alpamayo).
Entraîner un modèle IA ne nécessite pas seulement de la puissance de calcul, mais aussi des jeux de données de haute qualité, des modèles pré-entraînés, du code d’entraînement, des outils d’évaluation, etc. Pour la plupart des entreprises et institutions de recherche, construire tout cela à partir de zéro est trop long.
Plus concrètement, Nvidia open source six niveaux de contenu : plateformes de calcul (DGX, HGX, etc.), jeux de données pour chaque domaine, modèles de base pré-entraînés, bibliothèques de code pour inférence et entraînement, scripts de processus complet, et modèles de solutions clé en main.
La série Nemotron est au cœur de cette mise à jour, couvrant quatre axes d’application.
Dans le domaine de l’inférence, on trouve Nemotron 3 Nano, Nemotron 2 Nano VL, des modèles de raisonnement miniaturisés, ainsi que NeMo RL, NeMo Gym pour l’apprentissage par renforcement. En RAG (retrieval-augmented generation), on dispose de Nemotron Embed VL (embedding vectoriel), Nemotron Rerank VL (re-ranking), des jeux de données associés, et la bibliothèque NeMo Retriever. En sécurité, il y a Nemotron Content Safety, un modèle de sécurité de contenu, avec ses jeux de données, et la bibliothèque NeMo Guardrails.
Dans le domaine de la voix, on trouve Nemotron ASR (reconnaissance automatique vocale), le jeu de données Granary Dataset, et la bibliothèque NeMo pour le traitement vocal. Cela permet aux entreprises de créer un système de service client IA avec RAG, sans avoir à entraîner elles-mêmes des modèles d’embedding ou de re-ranking, puisqu Nvidia fournit déjà des codes entraînés et open source.
05 Le domaine de l’IA physique, vers la commercialisation
Le domaine de l’IA physique voit également des mises à jour de modèles : Cosmos, pour comprendre et générer des vidéos du monde physique ; Isaac GR00T, modèle de base universel pour la robotique ; Alpamayo, modèle visuel-langage-action pour la conduite autonome.
Huang Renxun a affirmé lors du CES que le « moment ChatGPT » de l’IA physique approche, mais que de nombreux défis subsistent : le monde physique est trop complexe et changeant, la collecte de données réelles est lente et coûteuse, et reste insuffisante.
Que faire ? La synthèse de données est une solution. Nvidia a lancé Cosmos.
C’est un modèle de base open source pour l’univers de l’IA physique, pré-entraîné sur une masse énorme de vidéos, de données de conduite réelle, de robotique, et de simulations 3D. Il peut comprendre comment le monde fonctionne, et relier langage, images, 3D et actions.
Huang Renxun a indiqué que Cosmos permet d’acquérir de nombreuses compétences en IA physique, comme la génération de contenu, le raisonnement, la prévision de trajectoires (même avec une seule image). Il peut générer des vidéos réalistes à partir de scènes 3D, produire des mouvements conformes aux lois physiques à partir de données de conduite, ou encore générer des vidéos panoramiques à partir de simulateurs, de caméras multiples ou de descriptions textuelles. Même des scénarios rares peuvent être recréés.
Huang Renxun a également officiellement lancé Alpamayo. C’est une chaîne d’outils open source pour la conduite autonome, et le premier modèle de raisonnement visuel-langage-action (VLA) open source. Contrairement à la simple mise à disposition du code, Nvidia fournit cette fois toutes les ressources de développement, de la donnée au déploiement.
La grande avancée d’Alpamayo réside dans le fait qu’il s’agit d’un modèle « de raisonnement » pour la conduite autonome. Les systèmes traditionnels sont basés sur une architecture « perception-planification-contrôle », qui réagit aux feux rouges en freinant, aux piétons en ralentissant, suivant des règles préétablies. Alpamayo introduit la capacité de « raisonnement », pour comprendre les relations de cause à effet dans des scénarios complexes, anticiper les intentions des autres véhicules et piétons, et prendre des décisions nécessitant plusieurs étapes de réflexion.
Par exemple, à un carrefour, il ne se contente pas d’identifier « un véhicule devant », mais peut raisonner « cette voiture veut peut-être tourner à gauche, donc je devrais attendre qu’elle passe ». Cette capacité permet de faire passer la conduite autonome d’un « suivre les règles » à un « penser comme un humain ».
Huang Renxun a annoncé que le système DRIVE de Nvidia entre officiellement en production, avec la première application sur la nouvelle Mercedes-Benz CLA, prévue pour rouler en 2026 aux États-Unis. Ce véhicule sera équipé d’un système de conduite autonome de niveau L2++, utilisant une architecture hybride « modèle IA de bout en bout + pipeline traditionnel ».
Le domaine de la robotique connaît également des avancées concrètes.
Huang Renxun a indiqué que des leaders mondiaux comme Boston Dynamics, Franka Robotics, LEM Surgical, LG Electronics, Neura Robotics et XRlabs développent des produits basés sur la plateforme Isaac de Nvidia et le modèle de base GR00T, couvrant des robots industriels, chirurgicaux, humanoïdes et de consommation.
Sur scène, Huang Renxun était entouré de robots de différentes formes et usages, exposés sur une scène en plusieurs niveaux : robots humanoïdes, robots bipèdes et à roues, bras robotiques industriels, machines de construction, drones et équipements d’assistance chirurgicale, illustrant un « écosystème robotique ».
De l’IA physique à la plateforme de calcul RubinAI, en passant par la plateforme de mémoire de contexte de raisonnement et la famille open source d’IA, Nvidia construit une narration pour l’infrastructure IA de l’ère du raisonnement. Comme l’a répété Huang Renxun, lorsque l’IA physique doit réfléchir en continu, fonctionner longtemps, et s’intégrer dans le monde réel, la question n’est plus seulement la puissance de calcul, mais qui peut réellement assembler tout le système.
Lors du CES 2026, Nvidia a déjà présenté une réponse.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
黄仁勋 CES2026 Dernière intervention : trois sujets clés, un « monstre de puces »
Auteur : Li Hailun Su Yang
Heure de Pékin : 6 janvier, le PDG de Nvidia, Huang Renxun, vêtu de son emblématique veste en cuir, se tient à nouveau sur la scène principale du CES2026.
Lors du CES 2025, Nvidia a présenté le chipset Blackwell en production de masse et une pile technologique complète d’IA physique. Lors de la conférence, Huang Renxun a souligné qu’une « ère de l’IA physique » était en train de s’ouvrir. Il a esquissé un avenir plein d’imagination : des voitures autonomes dotées de capacités de raisonnement, des robots capables de comprendre et de réfléchir, des AIAgent (agents intelligents) capables de traiter des tâches de contexte long avec des millions de tokens.
Un an s’est écoulé, et l’industrie de l’IA a connu une évolution révolutionnaire. Lors de la revue de cette année, Huang Renxun a mis en avant l’importance des modèles open source.
Il a déclaré que des modèles de raisonnement open source comme DeepSeek R1 ont permis à toute l’industrie de prendre conscience : lorsque l’ouverture et la collaboration mondiale sont réellement lancées, la diffusion de l’IA s’accélère énormément. Bien que les modèles open source soient encore environ six mois derrière les modèles de pointe en termes de capacités globales, ils rattrapent chaque semestre, et le volume de téléchargements et d’utilisations connaît une croissance explosive.
Comparé à 2025, où l’on mettait davantage en avant la vision et les possibilités, cette fois Nvidia commence à aborder systématiquement la question du « comment faire » : autour de l’IA de raisonnement, combler le déficit en puissance de calcul, réseau et infrastructure de stockage nécessaires pour une exécution longue, réduire considérablement le coût de raisonnement, et intégrer directement ces capacités dans des scénarios réels comme la conduite autonome et la robotique.
Lors de son discours au CES, Huang Renxun a développé trois axes principaux :
●Au niveau des systèmes et de l’infrastructure, Nvidia a reconstruit l’architecture de puissance de calcul, réseau et stockage pour répondre aux besoins de raisonnement à long terme. En se concentrant sur la plateforme Rubin, NVLink 6, Spectrum-X Ethernet et la plateforme de mémoire pour contexte de raisonnement, ces innovations ciblent directement les goulots d’étranglement tels que le coût élevé du raisonnement, la difficulté à maintenir le contexte, et la limitation de l’échelle, afin de résoudre les problèmes de IA qui réfléchit plus longtemps, qui coûte moins cher et qui peut fonctionner plus longtemps.
●Au niveau des modèles, Nvidia place le raisonnement / AI agentique au cœur de sa stratégie. Grâce à des modèles et outils comme Alpamayo, Nemotron, Cosmos Reason, elle pousse l’IA de la simple « génération de contenu » vers des agents capables de réfléchir en continu, passant d’un « modèle à réponse unique » à un « agent pouvant fonctionner à long terme ».
●Au niveau des applications et de la mise en œuvre, ces capacités sont directement intégrées dans des scénarios réels comme la conduite autonome et la robotique. Que ce soit le système de conduite autonome piloté par Alpamayo ou l’écosystème robotique avec GR00T et Jetson, tous collaborent avec des fournisseurs cloud et des plateformes d’entreprise pour déployer à grande échelle.
01 De la feuille de route à la production : Rubin dévoile pour la première fois ses performances
Lors de ce CES, Nvidia a dévoilé pour la première fois en détail les caractéristiques techniques de l’architecture Rubin.
Dans son discours, Huang Renxun a commencé par le concept de Test-time Scaling (extension lors de l’inférence), qui peut se comprendre comme : pour rendre l’IA plus intelligente, il ne suffit pas de lui faire « lire plus dur », mais de lui laisser « réfléchir un peu plus quand il rencontre un problème ».
Autrefois, l’amélioration des capacités de l’IA reposait principalement sur l’augmentation de la puissance de calcul lors de la phase d’entraînement, en faisant des modèles de plus en plus grands ; désormais, la nouveauté est que même si le modèle ne continue pas à grossir, en lui donnant plus de temps et de puissance à chaque utilisation pour réfléchir, ses performances s’améliorent nettement.
Comment rendre « l’IA qui réfléchit plus longtemps » économiquement viable ? La nouvelle plateforme de calcul IA de génération suivante de l’architecture Rubin est conçue pour répondre à cette question.
Huang Renxun a présenté une plateforme de calcul IA complète de nouvelle génération, combinant Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6, pour révolutionner le coût du raisonnement.
Le GPU Rubin de Nvidia est le cœur de calcul IA de l’architecture Rubin, visant à réduire significativement le coût unitaire du raisonnement et de l’entraînement.
En résumé, la tâche principale du GPU Rubin est de « rendre l’IA plus économique et plus intelligente ».
La capacité centrale du GPU Rubin réside dans le fait qu’un seul GPU peut faire plus de choses. Il peut traiter davantage de tâches de raisonnement à la fois, se souvenir d’un contexte plus long, et communiquer plus rapidement avec d’autres GPU, ce qui signifie que de nombreux scénarios auparavant nécessitant « plusieurs cartes » peuvent désormais être réalisés avec moins de GPU.
Résultat : le raisonnement devient non seulement plus rapide, mais aussi nettement moins cher.
Huang Renxun a revu en direct les paramètres matériels du NVL72 de l’architecture Rubin : 220 billions de transistors, une bande passante de 260 TB/s, c’est la première plateforme de calcul confidentiel à l’échelle rack dans l’industrie.
Globalement, par rapport à Blackwell, le GPU Rubin réalise une avancée générationnelle sur des indicateurs clés : la performance de raisonnement NVFP4 atteint 50 PFLOPS (5 fois), la performance d’entraînement 35 PFLOPS (3,5 fois), la bande passante mémoire HBM4 monte à 22 TB/s (2,8 fois), et la bande passante d’interconnexion NVLink d’un seul GPU double pour atteindre 3,6 TB/s.
Ces améliorations permettent à un seul GPU de traiter plus de tâches de raisonnement et un contexte plus long, réduisant fondamentalement la dépendance au nombre de GPU.
Le Vera CPU, conçu spécifiquement pour le déplacement de données et le traitement agentique, intègre 88 cœurs Olympus développés par Nvidia, avec 1,5 To de mémoire système (trois fois celle du précédent CPU Grace), et permet une mémoire cohérente entre CPU et GPU via la technologie NVLink-C2C à 1,8 TB/s.
Contrairement aux CPU génériques traditionnels, Vera se concentre sur la gestion des données dans les scénarios d’inférence IA et la logique de raisonnement multi-étapes, agissant essentiellement comme le coordinateur efficace du système pour faire « réfléchir l’IA plus longtemps ».
NVLink 6, avec une bande passante de 3,6 TB/s et une capacité de calcul réseau, permet aux 72 GPU de l’architecture Rubin de fonctionner en synergie comme un « super GPU », ce qui est la clé pour réduire le coût du raisonnement.
Ainsi, les données et résultats intermédiaires nécessaires à l’IA lors du raisonnement peuvent circuler rapidement entre GPU, sans attendre, copier ou recalculer.
Dans l’architecture Rubin, NVLink-6 gère la collaboration interne des GPU, BlueField-4 s’occupe de la gestion du contexte et des données, et ConnectX-9 assure la connectivité réseau haute vitesse externe. Cela garantit une communication efficace entre le système Rubin, d’autres racks, centres de données et plateformes cloud, condition préalable au bon déroulement des entraînements et inférences à grande échelle.
Par rapport à la génération précédente, Nvidia fournit des chiffres concrets : par rapport à la plateforme NVIDIA Blackwell, le coût par token lors de l’inférence peut être réduit jusqu’à 10 fois, et le nombre de GPU nécessaire pour entraîner un modèle MoE (mixture of experts) est réduit à un quart.
Nvidia indique que Microsoft a déjà prévu de déployer des dizaines de milliers de puces Vera Rubin dans sa prochaine usine d’IA Fairwater, et que des fournisseurs cloud comme CoreWeave proposeront des instances Rubin à partir du second semestre 2026. Cette infrastructure « qui fait réfléchir l’IA plus longtemps » passe ainsi du stade de démonstration technologique à celui de commercialisation à grande échelle.
02 Comment résoudre le « goulot d’étranglement » du stockage ?
Faire réfléchir l’IA « plus longtemps » reste un défi technologique clé : où placer les données de contexte ?
Lorsque l’IA doit gérer des tâches complexes nécessitant plusieurs dialogues ou étapes de raisonnement, elle génère une grande quantité de données de contexte (KV Cache). Les architectures traditionnelles doivent soit les stocker dans la mémoire GPU coûteuse et limitée, soit dans un stockage ordinaire (trop lent). Si ce « goulot d’étranglement » n’est pas résolu, même la GPU la plus puissante sera freinée.
Pour répondre à ce problème, Nvidia a dévoilé pour la première fois lors de ce CES une plateforme de stockage de mémoire de contexte d’inférence pilotée par BlueField-4, appelée Inference Context Memory Storage Platform, dont l’objectif est de créer une « troisième couche » entre la mémoire GPU et le stockage traditionnel. Elle doit être suffisamment rapide, avec une capacité suffisante, et supporter une exécution longue de l’IA.
Techniquement, cette plateforme n’est pas un composant unique, mais le résultat d’une conception collaborative :
BlueField-4 accélère la gestion et l’accès aux données de contexte au niveau matériel, réduisant les transferts de données et la surcharge système ;
Spectrum-X Ethernet fournit un réseau haute performance, supportant le partage de données à haute vitesse via RDMA ;
Les composants logiciels DOCA, NIXL et Dynamo optimisent la planification, réduisent la latence et augmentent le débit global.
On peut comprendre que cette plateforme étend les données de contexte, qui ne pouvaient auparavant être stockées que dans la mémoire GPU, à une « couche mémoire » indépendante, rapide et partageable. D’un côté, elle soulage la GPU, et de l’autre, elle permet un partage rapide de ces informations de contexte entre plusieurs nœuds et agents intelligents.
Concrètement, Nvidia indique que dans certains scénarios, cette approche peut augmenter jusqu’à 5 fois le nombre de tokens traités par seconde, tout en optimisant l’efficacité énergétique.
Huang Renxun a insisté à plusieurs reprises lors de la présentation sur le fait que l’IA évolue d’un « chatbot à conversation unique » vers un véritable agent intelligent : il faut qu’elle comprenne le monde réel, qu’elle raisonne en continu, qu’elle utilise des outils pour accomplir ses tâches, tout en conservant une mémoire à court et long terme. C’est précisément la caractéristique centrale de l’Agentic AI. La plateforme de stockage de mémoire de contexte d’inférence est conçue pour cette IA à fonctionnement long, qui réfléchit en boucle, en augmentant la capacité de contexte et en accélérant le partage entre nœuds, pour rendre les dialogues multi-tours et la collaboration multi-agent plus stables, sans ralentissement.
03
Nouvelle génération de DGX SuperPOD : 576 GPU en collaboration
Lors de ce CES, Nvidia a annoncé le lancement d’une nouvelle génération de DGX SuperPOD basée sur l’architecture Rubin, étendant Rubin d’un seul rack à une solution complète pour tout le centre de données.
Qu’est-ce que le DGX SuperPOD ?
Si le Rubin NVL72 est un « super rack » contenant 72 GPU, alors le DGX SuperPOD consiste à connecter plusieurs de ces racks pour former un cluster de calcul IA à plus grande échelle. La version présentée comprend 8 racks Vera Rubin NVL72, soit 576 GPU en collaboration.
Lorsque la taille des tâches IA continue de croître, un seul rack de 576 GPU peut ne plus suffire. Par exemple, pour entraîner des modèles ultra-massifs, servir des milliers d’agents intelligents, ou traiter des tâches complexes avec des millions de tokens de contexte, il faut plusieurs racks en collaboration. Le DGX SuperPOD est conçu pour ces scénarios, en proposant une solution standardisée.
Pour les entreprises et fournisseurs cloud, le DGX SuperPOD offre une infrastructure IA prête à l’emploi, sans avoir à se soucier de la connexion de centaines de GPU, de la configuration réseau ou de la gestion du stockage.
Les cinq composants clés de la nouvelle génération DGX SuperPOD :
○8 racks Vera Rubin NVL72 – cœur de calcul, chaque rack avec 72 GPU, totalisant 576 GPU ;
○Réseau étendu NVLink 6 – permettant à ces 8 racks de fonctionner comme un « super GPU » ;
○Réseau Ethernet Spectrum-X – connectant différents SuperPOD, stockage et réseaux externes ;
○Plateforme de stockage de mémoire de contexte d’inférence – pour les longues tâches de raisonnement ;
○Logiciel Nvidia Mission Control – gestion de la planification, surveillance et optimisation du système.
Cette mise à jour repose sur une architecture centrée sur le système NVL72. Chaque NVL72 est une super machine IA, connectée via NVLink 6, capable de réaliser des tâches massives de raisonnement et d’entraînement dans un seul rack. Le nouveau DGX SuperPOD, composé de plusieurs NVL72, forme un cluster opérationnel à long terme.
Lorsque la capacité de calcul s’étend du « seul rack » au « multi-racks », un nouveau goulot d’étranglement apparaît : comment transférer efficacement d’énormes volumes de données entre racks ? Nvidia a également lancé lors de ce CES un nouveau commutateur Ethernet basé sur le chipset Spectrum-6, intégrant pour la première fois la technologie « CPO » (co-packaged optics).
En résumé, cette technologie consiste à intégrer directement dans le commutateur optique des modules optiques, réduisant la distance de transmission de plusieurs mètres à quelques millimètres, ce qui diminue la consommation d’énergie et la latence, tout en améliorant la stabilité globale du système.
04 La famille open source d’IA de Nvidia : tout du stockage au code
Lors de ce CES, Huang Renxun a annoncé l’expansion de son écosystème de modèles open source (Open Model Universe), avec une série de modèles, jeux de données, bibliothèques de code et outils. Cet écosystème couvre six grands domaines : IA biomédicale (Clara), simulation physique (Earth-2), IA agentique (Nemotron), IA physique (Cosmos), robotique (GR00T) et conduite autonome (Alpamayo).
Entraîner un modèle IA ne nécessite pas seulement de la puissance de calcul, mais aussi des jeux de données de haute qualité, des modèles pré-entraînés, du code d’entraînement, des outils d’évaluation, etc. Pour la plupart des entreprises et institutions de recherche, construire tout cela à partir de zéro est trop long.
Plus concrètement, Nvidia open source six niveaux de contenu : plateformes de calcul (DGX, HGX, etc.), jeux de données pour chaque domaine, modèles de base pré-entraînés, bibliothèques de code pour inférence et entraînement, scripts de processus complet, et modèles de solutions clé en main.
La série Nemotron est au cœur de cette mise à jour, couvrant quatre axes d’application.
Dans le domaine de l’inférence, on trouve Nemotron 3 Nano, Nemotron 2 Nano VL, des modèles de raisonnement miniaturisés, ainsi que NeMo RL, NeMo Gym pour l’apprentissage par renforcement. En RAG (retrieval-augmented generation), on dispose de Nemotron Embed VL (embedding vectoriel), Nemotron Rerank VL (re-ranking), des jeux de données associés, et la bibliothèque NeMo Retriever. En sécurité, il y a Nemotron Content Safety, un modèle de sécurité de contenu, avec ses jeux de données, et la bibliothèque NeMo Guardrails.
Dans le domaine de la voix, on trouve Nemotron ASR (reconnaissance automatique vocale), le jeu de données Granary Dataset, et la bibliothèque NeMo pour le traitement vocal. Cela permet aux entreprises de créer un système de service client IA avec RAG, sans avoir à entraîner elles-mêmes des modèles d’embedding ou de re-ranking, puisqu Nvidia fournit déjà des codes entraînés et open source.
05 Le domaine de l’IA physique, vers la commercialisation
Le domaine de l’IA physique voit également des mises à jour de modèles : Cosmos, pour comprendre et générer des vidéos du monde physique ; Isaac GR00T, modèle de base universel pour la robotique ; Alpamayo, modèle visuel-langage-action pour la conduite autonome.
Huang Renxun a affirmé lors du CES que le « moment ChatGPT » de l’IA physique approche, mais que de nombreux défis subsistent : le monde physique est trop complexe et changeant, la collecte de données réelles est lente et coûteuse, et reste insuffisante.
Que faire ? La synthèse de données est une solution. Nvidia a lancé Cosmos.
C’est un modèle de base open source pour l’univers de l’IA physique, pré-entraîné sur une masse énorme de vidéos, de données de conduite réelle, de robotique, et de simulations 3D. Il peut comprendre comment le monde fonctionne, et relier langage, images, 3D et actions.
Huang Renxun a indiqué que Cosmos permet d’acquérir de nombreuses compétences en IA physique, comme la génération de contenu, le raisonnement, la prévision de trajectoires (même avec une seule image). Il peut générer des vidéos réalistes à partir de scènes 3D, produire des mouvements conformes aux lois physiques à partir de données de conduite, ou encore générer des vidéos panoramiques à partir de simulateurs, de caméras multiples ou de descriptions textuelles. Même des scénarios rares peuvent être recréés.
Huang Renxun a également officiellement lancé Alpamayo. C’est une chaîne d’outils open source pour la conduite autonome, et le premier modèle de raisonnement visuel-langage-action (VLA) open source. Contrairement à la simple mise à disposition du code, Nvidia fournit cette fois toutes les ressources de développement, de la donnée au déploiement.
La grande avancée d’Alpamayo réside dans le fait qu’il s’agit d’un modèle « de raisonnement » pour la conduite autonome. Les systèmes traditionnels sont basés sur une architecture « perception-planification-contrôle », qui réagit aux feux rouges en freinant, aux piétons en ralentissant, suivant des règles préétablies. Alpamayo introduit la capacité de « raisonnement », pour comprendre les relations de cause à effet dans des scénarios complexes, anticiper les intentions des autres véhicules et piétons, et prendre des décisions nécessitant plusieurs étapes de réflexion.
Par exemple, à un carrefour, il ne se contente pas d’identifier « un véhicule devant », mais peut raisonner « cette voiture veut peut-être tourner à gauche, donc je devrais attendre qu’elle passe ». Cette capacité permet de faire passer la conduite autonome d’un « suivre les règles » à un « penser comme un humain ».
Huang Renxun a annoncé que le système DRIVE de Nvidia entre officiellement en production, avec la première application sur la nouvelle Mercedes-Benz CLA, prévue pour rouler en 2026 aux États-Unis. Ce véhicule sera équipé d’un système de conduite autonome de niveau L2++, utilisant une architecture hybride « modèle IA de bout en bout + pipeline traditionnel ».
Le domaine de la robotique connaît également des avancées concrètes.
Huang Renxun a indiqué que des leaders mondiaux comme Boston Dynamics, Franka Robotics, LEM Surgical, LG Electronics, Neura Robotics et XRlabs développent des produits basés sur la plateforme Isaac de Nvidia et le modèle de base GR00T, couvrant des robots industriels, chirurgicaux, humanoïdes et de consommation.
Sur scène, Huang Renxun était entouré de robots de différentes formes et usages, exposés sur une scène en plusieurs niveaux : robots humanoïdes, robots bipèdes et à roues, bras robotiques industriels, machines de construction, drones et équipements d’assistance chirurgicale, illustrant un « écosystème robotique ».
De l’IA physique à la plateforme de calcul RubinAI, en passant par la plateforme de mémoire de contexte de raisonnement et la famille open source d’IA, Nvidia construit une narration pour l’infrastructure IA de l’ère du raisonnement. Comme l’a répété Huang Renxun, lorsque l’IA physique doit réfléchir en continu, fonctionner longtemps, et s’intégrer dans le monde réel, la question n’est plus seulement la puissance de calcul, mais qui peut réellement assembler tout le système.
Lors du CES 2026, Nvidia a déjà présenté une réponse.