Auteur : Wu Ji, traduction spéciale de Tencent Technology
Le 19 novembre, heure de Pékin, après la publication par Google de la série de modèles Gemini 3, le podcast technologique “Hard Fork” du New York Times a diffusé un épisode spécial, avec les animateurs Kevin Roose et Casey Newton interviewant Demis Hassabis, le PDG de Google DeepMind, et Josh Woodward, le responsable de l'équipe Gemini de Google.
Cette interview se concentre sur le dernier modèle AI phare de Google, Gemini 3 (en réalité la version Pro de la série Gemini 3.0), qui est considéré comme un lancement emblématique par l'industrie, marquant le retour de Google à une position de leader en matière de technologie et de produits après l'échec de Bard et les phases de rattrapage de Gemini 1.x et 2.x.
Les deux responsables ont détaillé les percées de Gemini 3 en matière de raisonnement multi-étapes, de génération de code (en particulier pour le front-end et le “codage d'ambiance”), et de génération dynamique d'interfaces interactives, en soulignant que Google a rapidement intégré le modèle le plus puissant dans des produits destinés à des milliards d'utilisateurs tels que Search, Gmail et Workspace, redéfinissant ainsi les barrières à la concurrence.
Points clés de l'entretien :
Gemini 3 correspond parfaitement à la trajectoire de développement prévue, il reste encore 5 à 10 ans et 1 à 2 percées majeures en recherche avant d'atteindre l'intelligence artificielle générale (AGI) ;
L'avantage full-stack de Google en matière d'efficacité, de coûts et de distribution lui permettra de triompher dans n'importe quel environnement de marché ;
Il existe une partie de bulle AI, mais Google dispose à la fois d'une monétisation à court terme et d'une double garantie sur un nouveau marché à long terme de plusieurs billions.
Voici une version abrégée de l'entretien.
Rodz : Kacey, nous avons ajouté un épisode spécial aujourd'hui, le thème étant le lancement de Gemini 3.
Newton : Oui, Kevin. Ce modèle a été attendu depuis longtemps dans le cercle de l'IA de la Silicon Valley, et nous allons enfin pouvoir expérimenter un véritable produit fini.
Rodz : La raison pour laquelle nous avons rompu notre rythme de publication habituel du vendredi pour enregistrer cet épisode est principalement due à deux raisons. Tout d'abord, nous avons eu l'opportunité d'interviewer deux responsables clés de l'IA chez Google (le PDG de DeepMind, Demis Hassabis, et le vice-président de l'équipe Gemini, Woodward).
Deuxièmement, le lancement de Gemini 3 a suscité un vif intérêt dans l'industrie. Nous avons entendu des informations internes de plusieurs laboratoires indiquant que ce modèle a réalisé des percées dans certains domaines clés, ce qui pourrait constituer une menace substantielle pour les concurrents. Au cours des deux dernières années, Google a été considéré comme un suiveur, mais la question aujourd'hui est : sont-ils de retour en position de leader ?
Newton : Avant de commencer l'entretien, nous allons d'abord présenter brièvement les informations connues. Google a tenu une réunion d'information à huis clos avant le lancement, et les nouvelles capacités les plus remarquables de Gemini 3 incluent : des capacités de codage et de “codage d'ambiance” considérablement améliorées ; ainsi qu'une toute nouvelle fonctionnalité de génération d'interfaces interactives.
Il ne se contente plus de produire du texte, mais génère directement pour les utilisateurs des interfaces interactives personnalisées. Par exemple, lorsque l'utilisateur demande des informations sur la vie de Van Gogh, le modèle génère instantanément une page d'apprentissage complète contenant des images, une chronologie et des éléments interactifs ; de même, il peut créer un calculateur d'hypothèque pour des propriétés de plus d'un million de dollars. Ces fonctionnalités marquent une transition de “répondre à des questions” à “construire des expériences”.
Lodz : Dans tous les tests de référence publics, Gemini 3 surpasse largement Gemini 2.5 Pro. Par exemple, dans un ensemble de problèmes interdisciplinaires de niveau doctorat appelé “L'ultime examen de l'humanité” (Humanity's Last Exam), le premier a obtenu un score de seulement 21,6 %, tandis que le second a été directement porté à 37,5 %. La déclaration générale de Google est la suivante : toute tâche que vous pouvez accomplir sur ChatGPT, Claude ou d'autres anciennes versions de Gemini peut être réalisée de manière plus performante sur Gemini 3.
Newton : Ils ont également présenté une démonstration précoce de Gemini Agent : le modèle peut accéder en profondeur à la boîte mail de l'utilisateur, comprendre tout le contenu des e-mails, classer automatiquement, rédiger des réponses et même aider l'utilisateur à vider complètement sa boîte de réception.
De plus, à partir de cette semaine, Gemini 3 sera disponible sur l'application Gemini et en mode AI sur Google Search ; les étudiants américains bénéficieront d'un an d'accès gratuit à la version premium. Le mot-clé que Google souligne à plusieurs reprises est “Learn Anything”, ce qui positionne en réalité Gemini comme l'outil éducatif personnalisé ultime.
Rodz : Demis, Josh, bienvenue dans “Hard Fork”. Il y a deux ans, Sundar Pichai a comparé Bard à “une Honda Civic modifiée”, en courant sur la piste contre des concurrents plus puissants. Alors, qu'est-ce que Gemini 3 ?
Habashis : J'espère qu'il sera beaucoup plus rapide qu'une Honda Civic. Je ne suis pas très habitué à utiliser des voitures comme métaphore, cela ressemble peut-être plus à une voiture de dragster professionnelle. Ce n'est pas conçu pour la conduite quotidienne ou les courses sur circuit, il possède une puissance énorme, purement concentrée sur un objectif spécifique. Il représente la combinaison parfaite de nos recherches de pointe et de la puissance de calcul à grande échelle, avec pour objectif de démontrer une puissance d'explosion instantanée inégalée dans cette course à la pointe de l'intelligence.
Rodz : C'est intéressant. Par rapport à tous les modèles d'IA précédents, que peut réellement faire Gemini 3 de nouveau à un niveau concret ? Donnez-nous quelques exemples quantifiés et pratiques.
Woodward : Il y a trois points les plus marquants. Premièrement, dans le raisonnement en plusieurs étapes, il peut penser simultanément à plus d'étapes, et nous avons porté sa fiabilité à un tout nouveau niveau. Les modèles précédents avaient souvent tendance à “perdre le fil” ou à créer des hallucinations lors de déductions logiques complexes aux 5e ou 6e étapes, tandis que Gemini 3 peut accomplir de manière fiable des tâches de raisonnement cohérent de 10 à 15 étapes, comme la planification fiscale complexe, la planification et la réservation de voyages d'affaires internationaux, ou le débogage complet d'un système massif contenant des millions de lignes de code.
Deuxièmement, il générera pour la première fois une toute nouvelle interface interactive à grande échelle. Les utilisateurs n'ont plus besoin de simples réponses textuelles, mais de composants logiciels personnalisés. Par exemple, si vous lui demandez : “Aide-moi à concevoir un tableau de bord qui peut suivre tous mes portefeuilles d'investissement”, il générera en temps réel une interface de tableau de bord interactive et fonctionnelle, au lieu d'une multitude de descriptions sur la façon de créer un tableau de bord.
Troisièmement, nous investissons d'énormes ressources dans la capacité de codage, en particulier dans le codage de l'interface utilisateur et le “codage d'ambiance”, ce qui signifie qu'il peut générer un code d'interface utilisateur complet et esthétiquement conçu en fonction des invites en langage naturel. Les nouveaux produits à venir, tels que Google Antigravity, mettront également cela en valeur, le modèle étant capable de modifier dynamiquement la mise en page et les fonctionnalités de l'interface utilisateur en fonction du contexte.
Newton : Beaucoup de gens pensent qu'en ce qui concerne l'utilisateur moyen, le cas d'utilisation du “chat” est déjà essentiellement résolu. Ils ne peuvent même pas imaginer quel nouveau problème pourrait faire en sorte que les réponses de Gemini 3 se distinguent qualitativement de celles de la génération précédente. Que pensez-vous de ce point de vue ?
Woodward : Je comprends ce point de vue. À première vue, le taux de précision des réponses de base est déjà très élevé. Mais la véritable différence réside dans la fiabilité, l'intégration et la manière dont l'information est présentée. Les réponses de Gemini 3 seront plus concises, plus expressives et la présentation de l'information sera plus facile à comprendre, ce qui est un changement que la plupart des gens peuvent percevoir immédiatement.
Plus important encore, le modèle commence à s'intégrer en profondeur avec d'autres sources de données des utilisateurs, par exemple en interagissant avec d'autres produits de l'écosystème Google, dépassant ainsi le simple mode question-réponse pour devenir le “grand gestionnaire numérique” de l'utilisateur. Il peut comprendre le contexte de l'ensemble de votre boîte mail, permettant ainsi de rédiger des réponses qui non seulement répondent aux questions, mais ajustent également le ton et le contenu en fonction de votre style passé et de votre relation avec le destinataire.
Hassabis : Je suis tout à fait d'accord. Sa fiabilité, son style et sa personnalité ont été soigneusement peaufinés, devenant plus concis et plus percutants. Dans des scénarios tels que le “coding d'ambiance”, elle a déjà franchi le seuil de la praticité. C'est une transformation d'un “assistant intelligent” en “collègue intelligent”. Personnellement, je prévois de l'utiliser pour reprendre la programmation de jeux pendant les vacances de Noël, elle peut désormais non seulement écrire du code fonctionnel, mais aussi fournir des conseils architecturaux dès le début de la conception.
Lodz : Demis, lors de notre interview en mai de cette année, tu as estimé que l'AGI nécessiterait encore 5 à 10 ans et pourrait nécessiter plusieurs percées majeures. Gemini 3 a-t-il changé ce calendrier ?
Hassabis : Pas du tout. Cela correspond parfaitement à la trajectoire que nous avons définie au cours des deux dernières années. En fait, depuis le lancement de la série Gemini, notre rythme de progrès est le plus rapide de l'industrie. Gemini 3 est impressionnant, mais reste dans les attentes.
Pour atteindre une véritable intelligence artificielle générale, il reste nécessaire de réaliser 1 à 2 percées clés en matière de cohérence, de profondeur de raisonnement, de mécanismes de mémoire, ainsi que de modélisation du monde physique (comme les projets SIMA et Genie que nous développons actuellement). Ce que nous faisons maintenant est de la “pensée Système 1” (rapide, intuitive), mais pour réaliser l'AGI, nous devons déverrouiller la “pensée Système 2” (lente, réfléchie, analytique).
De plus, le modèle doit disposer d'un mécanisme de mémoire sélective à long terme, capable de rappeler et d'appliquer des contenus d'interaction spécifiques datant de plusieurs semaines ou mois, et ne pas se limiter à une fenêtre contextuelle restreinte. Par conséquent, le jugement reste inchangé sur une période de 5 à 10 ans.
Newton : Concernant la personnalité des modèles et la relation avec les utilisateurs, l'industrie débat actuellement des “partenaires IA”. Quel type de relation espérez-vous que les utilisateurs établissent avec Gemini 3 ?
Woodward : C'est une question très sensible mais importante. Nous le positionnons comme un “super outil” plutôt que comme un compagnon émotionnel, la valeur fondamentale étant d'aider les utilisateurs à accomplir efficacement leurs tâches quotidiennes et à améliorer leur productivité. En interne, nous nous concentrons davantage sur un nouvel indicateur : combien de tâches avons-nous accomplies pour vous aujourd'hui ? Cela se rapproche davantage de la valeur fondamentale de la première génération de recherche Google - l'efficacité. Nous pensons que positionner le modèle comme un compagnon émotionnel comporte des risques de sécurité et s'écarte de la mission fondamentale de Google en tant que fournisseur d'informations et d'outils.
Rodz : Avez-vous abandonné l'opportunité de croissance virale des “partenaires érotiques”, ce qui constitue-t-il une grave erreur stratégique ?
Woodward : Pas de commentaire. Notre équipe de sécurité a des normes et des directives strictes à ce sujet.
Rodz : Au cours des dernières semaines, la concurrence s'est clairement intensifiée. Pensez-vous que Google est actuellement en tête dans la course à l'IA ?
Hassabis : L'environnement actuel est la compétition la plus intense de l'histoire. La seule chose qui compte véritablement est la vitesse des progrès, et nous en sommes très satisfaits. Nous n'avons jamais perdu notre avance en recherche, et maintenant, il ne reste plus qu'à ce que nos produits atteignent enfin le marché. Nos concurrents excellent en recherche, mais en termes de distribution à grande échelle et d'intégration verticale, ils ne peuvent pas reproduire notre avantage.
Nous injectons Gemini dans des produits utilisés par des milliards d'utilisateurs tels que Maps, YouTube, Android, Search, Workspace, etc. Ce réseau de distribution et ce cycle de retour de données terminal constituent une barrière infranchissable. De plus, notre avantage complet sur des puces TPU personnalisées permet à nos coûts et à notre efficacité d'entraînement de surpasser de loin ceux des concurrents qui dépendent de ressources GPU externes.
Newton : Que pensez-vous des débats concernant la loi des échelles et le rendement décroissant ? Certains estiment que plus le modèle est grand, plus l'effet marginal sur l'amélioration des performances est faible.
Hassabis : C'est un débat continu. Nous sommes très satisfaits des améliorations de Gemini 3 par rapport à 2.5, cela correspond parfaitement à nos attentes. Les retours ne connaissent pas une croissance exponentielle comme auparavant, mais l'augmentation de l'utilité et la fiabilité qu'il apporte dépassent de loin nos coûts marginaux, ce qui justifie pleinement notre investissement. Avant que les 1 à 2 percées de recherche nécessaires pour atteindre l'AGI ne se produisent, il reste la stratégie la plus efficace de continuer à améliorer les performances grâce à des modèles de base de plus grande envergure. Nous croyons que les lois d'échelle demeurent valables.
Lodz : Sommes-nous dans une bulle de l'IA ?
Hassabis : C'est une question trop binaire. Dans certains domaines (comme les entreprises qui ont levé des milliards de dollars lors de leur tour de financement sans produit réel et qui ne parlent que de concepts), il y a effectivement une bulle, les évaluations étant déconnectées des revenus réels. Mais Google possède à la fois une monétisation à court terme (recherche, Workspace, cloud TPU) et de nouvelles pistes à long terme évaluées en trillions (robotique, jeux, découverte de médicaments, science des matériaux, etc.).
Par exemple, nos modèles professionnels tels qu'AlphaFold créent une valeur réelle dans le domaine de la découverte de médicaments, qui est un marché de mille milliards de dollars indépendant de l'évaluation de l'IA grand public. Qu'il y ait ou non une bulle à court terme, nous allons triompher : saisir les opportunités en période de prospérité et faire preuve de résilience grâce à notre avantage full-stack et à notre solide flux de trésorerie en période de contraction.
Newton : Si c'est maintenant une fête de Thanksgiving et que quelqu'un veut changer de sujet politique, que leur conseilleriez-vous de montrer avec Gemini 3 pour impressionner tout le monde ?
Woodward : Je ne sais pas si cela peut sauver Thanksgiving, mais cela peut apporter du rire. Sortez votre téléphone, prenez un selfie, puis laissez Gemini 3 éditer les photos de manière folle.
Notre modèle d'image dans Gemini reste le plus puissant au monde. Vous pouvez instantanément transformer une photo de famille en n'importe quelle scène, style ou époque loufoque. Cela ne manquera pas de faire rire tout le monde. Ensuite, lorsque vous montrez comment cela peut vous aider à rédiger une lettre de démission appropriée ou à générer un calculateur de recettes de fête personnalisé, ils exploreront naturellement d'autres nouvelles fonctionnalités.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Après le lancement de Gemini3, l'équipe s'est exprimée : trois points d'innovation, la loi des rendements d'échelle reste valable.
Auteur : Wu Ji, traduction spéciale de Tencent Technology
Le 19 novembre, heure de Pékin, après la publication par Google de la série de modèles Gemini 3, le podcast technologique “Hard Fork” du New York Times a diffusé un épisode spécial, avec les animateurs Kevin Roose et Casey Newton interviewant Demis Hassabis, le PDG de Google DeepMind, et Josh Woodward, le responsable de l'équipe Gemini de Google.
Cette interview se concentre sur le dernier modèle AI phare de Google, Gemini 3 (en réalité la version Pro de la série Gemini 3.0), qui est considéré comme un lancement emblématique par l'industrie, marquant le retour de Google à une position de leader en matière de technologie et de produits après l'échec de Bard et les phases de rattrapage de Gemini 1.x et 2.x.
Les deux responsables ont détaillé les percées de Gemini 3 en matière de raisonnement multi-étapes, de génération de code (en particulier pour le front-end et le “codage d'ambiance”), et de génération dynamique d'interfaces interactives, en soulignant que Google a rapidement intégré le modèle le plus puissant dans des produits destinés à des milliards d'utilisateurs tels que Search, Gmail et Workspace, redéfinissant ainsi les barrières à la concurrence.
Points clés de l'entretien :
Voici une version abrégée de l'entretien.
Rodz : Kacey, nous avons ajouté un épisode spécial aujourd'hui, le thème étant le lancement de Gemini 3.
Newton : Oui, Kevin. Ce modèle a été attendu depuis longtemps dans le cercle de l'IA de la Silicon Valley, et nous allons enfin pouvoir expérimenter un véritable produit fini.
Rodz : La raison pour laquelle nous avons rompu notre rythme de publication habituel du vendredi pour enregistrer cet épisode est principalement due à deux raisons. Tout d'abord, nous avons eu l'opportunité d'interviewer deux responsables clés de l'IA chez Google (le PDG de DeepMind, Demis Hassabis, et le vice-président de l'équipe Gemini, Woodward).
Deuxièmement, le lancement de Gemini 3 a suscité un vif intérêt dans l'industrie. Nous avons entendu des informations internes de plusieurs laboratoires indiquant que ce modèle a réalisé des percées dans certains domaines clés, ce qui pourrait constituer une menace substantielle pour les concurrents. Au cours des deux dernières années, Google a été considéré comme un suiveur, mais la question aujourd'hui est : sont-ils de retour en position de leader ?
Newton : Avant de commencer l'entretien, nous allons d'abord présenter brièvement les informations connues. Google a tenu une réunion d'information à huis clos avant le lancement, et les nouvelles capacités les plus remarquables de Gemini 3 incluent : des capacités de codage et de “codage d'ambiance” considérablement améliorées ; ainsi qu'une toute nouvelle fonctionnalité de génération d'interfaces interactives.
Il ne se contente plus de produire du texte, mais génère directement pour les utilisateurs des interfaces interactives personnalisées. Par exemple, lorsque l'utilisateur demande des informations sur la vie de Van Gogh, le modèle génère instantanément une page d'apprentissage complète contenant des images, une chronologie et des éléments interactifs ; de même, il peut créer un calculateur d'hypothèque pour des propriétés de plus d'un million de dollars. Ces fonctionnalités marquent une transition de “répondre à des questions” à “construire des expériences”.
Lodz : Dans tous les tests de référence publics, Gemini 3 surpasse largement Gemini 2.5 Pro. Par exemple, dans un ensemble de problèmes interdisciplinaires de niveau doctorat appelé “L'ultime examen de l'humanité” (Humanity's Last Exam), le premier a obtenu un score de seulement 21,6 %, tandis que le second a été directement porté à 37,5 %. La déclaration générale de Google est la suivante : toute tâche que vous pouvez accomplir sur ChatGPT, Claude ou d'autres anciennes versions de Gemini peut être réalisée de manière plus performante sur Gemini 3.
Newton : Ils ont également présenté une démonstration précoce de Gemini Agent : le modèle peut accéder en profondeur à la boîte mail de l'utilisateur, comprendre tout le contenu des e-mails, classer automatiquement, rédiger des réponses et même aider l'utilisateur à vider complètement sa boîte de réception.
De plus, à partir de cette semaine, Gemini 3 sera disponible sur l'application Gemini et en mode AI sur Google Search ; les étudiants américains bénéficieront d'un an d'accès gratuit à la version premium. Le mot-clé que Google souligne à plusieurs reprises est “Learn Anything”, ce qui positionne en réalité Gemini comme l'outil éducatif personnalisé ultime.
Rodz : Demis, Josh, bienvenue dans “Hard Fork”. Il y a deux ans, Sundar Pichai a comparé Bard à “une Honda Civic modifiée”, en courant sur la piste contre des concurrents plus puissants. Alors, qu'est-ce que Gemini 3 ?
Habashis : J'espère qu'il sera beaucoup plus rapide qu'une Honda Civic. Je ne suis pas très habitué à utiliser des voitures comme métaphore, cela ressemble peut-être plus à une voiture de dragster professionnelle. Ce n'est pas conçu pour la conduite quotidienne ou les courses sur circuit, il possède une puissance énorme, purement concentrée sur un objectif spécifique. Il représente la combinaison parfaite de nos recherches de pointe et de la puissance de calcul à grande échelle, avec pour objectif de démontrer une puissance d'explosion instantanée inégalée dans cette course à la pointe de l'intelligence.
Rodz : C'est intéressant. Par rapport à tous les modèles d'IA précédents, que peut réellement faire Gemini 3 de nouveau à un niveau concret ? Donnez-nous quelques exemples quantifiés et pratiques.
Woodward : Il y a trois points les plus marquants. Premièrement, dans le raisonnement en plusieurs étapes, il peut penser simultanément à plus d'étapes, et nous avons porté sa fiabilité à un tout nouveau niveau. Les modèles précédents avaient souvent tendance à “perdre le fil” ou à créer des hallucinations lors de déductions logiques complexes aux 5e ou 6e étapes, tandis que Gemini 3 peut accomplir de manière fiable des tâches de raisonnement cohérent de 10 à 15 étapes, comme la planification fiscale complexe, la planification et la réservation de voyages d'affaires internationaux, ou le débogage complet d'un système massif contenant des millions de lignes de code.
Deuxièmement, il générera pour la première fois une toute nouvelle interface interactive à grande échelle. Les utilisateurs n'ont plus besoin de simples réponses textuelles, mais de composants logiciels personnalisés. Par exemple, si vous lui demandez : “Aide-moi à concevoir un tableau de bord qui peut suivre tous mes portefeuilles d'investissement”, il générera en temps réel une interface de tableau de bord interactive et fonctionnelle, au lieu d'une multitude de descriptions sur la façon de créer un tableau de bord.
Troisièmement, nous investissons d'énormes ressources dans la capacité de codage, en particulier dans le codage de l'interface utilisateur et le “codage d'ambiance”, ce qui signifie qu'il peut générer un code d'interface utilisateur complet et esthétiquement conçu en fonction des invites en langage naturel. Les nouveaux produits à venir, tels que Google Antigravity, mettront également cela en valeur, le modèle étant capable de modifier dynamiquement la mise en page et les fonctionnalités de l'interface utilisateur en fonction du contexte.
Newton : Beaucoup de gens pensent qu'en ce qui concerne l'utilisateur moyen, le cas d'utilisation du “chat” est déjà essentiellement résolu. Ils ne peuvent même pas imaginer quel nouveau problème pourrait faire en sorte que les réponses de Gemini 3 se distinguent qualitativement de celles de la génération précédente. Que pensez-vous de ce point de vue ?
Woodward : Je comprends ce point de vue. À première vue, le taux de précision des réponses de base est déjà très élevé. Mais la véritable différence réside dans la fiabilité, l'intégration et la manière dont l'information est présentée. Les réponses de Gemini 3 seront plus concises, plus expressives et la présentation de l'information sera plus facile à comprendre, ce qui est un changement que la plupart des gens peuvent percevoir immédiatement.
Plus important encore, le modèle commence à s'intégrer en profondeur avec d'autres sources de données des utilisateurs, par exemple en interagissant avec d'autres produits de l'écosystème Google, dépassant ainsi le simple mode question-réponse pour devenir le “grand gestionnaire numérique” de l'utilisateur. Il peut comprendre le contexte de l'ensemble de votre boîte mail, permettant ainsi de rédiger des réponses qui non seulement répondent aux questions, mais ajustent également le ton et le contenu en fonction de votre style passé et de votre relation avec le destinataire.
Hassabis : Je suis tout à fait d'accord. Sa fiabilité, son style et sa personnalité ont été soigneusement peaufinés, devenant plus concis et plus percutants. Dans des scénarios tels que le “coding d'ambiance”, elle a déjà franchi le seuil de la praticité. C'est une transformation d'un “assistant intelligent” en “collègue intelligent”. Personnellement, je prévois de l'utiliser pour reprendre la programmation de jeux pendant les vacances de Noël, elle peut désormais non seulement écrire du code fonctionnel, mais aussi fournir des conseils architecturaux dès le début de la conception.
Lodz : Demis, lors de notre interview en mai de cette année, tu as estimé que l'AGI nécessiterait encore 5 à 10 ans et pourrait nécessiter plusieurs percées majeures. Gemini 3 a-t-il changé ce calendrier ?
Hassabis : Pas du tout. Cela correspond parfaitement à la trajectoire que nous avons définie au cours des deux dernières années. En fait, depuis le lancement de la série Gemini, notre rythme de progrès est le plus rapide de l'industrie. Gemini 3 est impressionnant, mais reste dans les attentes.
Pour atteindre une véritable intelligence artificielle générale, il reste nécessaire de réaliser 1 à 2 percées clés en matière de cohérence, de profondeur de raisonnement, de mécanismes de mémoire, ainsi que de modélisation du monde physique (comme les projets SIMA et Genie que nous développons actuellement). Ce que nous faisons maintenant est de la “pensée Système 1” (rapide, intuitive), mais pour réaliser l'AGI, nous devons déverrouiller la “pensée Système 2” (lente, réfléchie, analytique).
De plus, le modèle doit disposer d'un mécanisme de mémoire sélective à long terme, capable de rappeler et d'appliquer des contenus d'interaction spécifiques datant de plusieurs semaines ou mois, et ne pas se limiter à une fenêtre contextuelle restreinte. Par conséquent, le jugement reste inchangé sur une période de 5 à 10 ans.
Newton : Concernant la personnalité des modèles et la relation avec les utilisateurs, l'industrie débat actuellement des “partenaires IA”. Quel type de relation espérez-vous que les utilisateurs établissent avec Gemini 3 ?
Woodward : C'est une question très sensible mais importante. Nous le positionnons comme un “super outil” plutôt que comme un compagnon émotionnel, la valeur fondamentale étant d'aider les utilisateurs à accomplir efficacement leurs tâches quotidiennes et à améliorer leur productivité. En interne, nous nous concentrons davantage sur un nouvel indicateur : combien de tâches avons-nous accomplies pour vous aujourd'hui ? Cela se rapproche davantage de la valeur fondamentale de la première génération de recherche Google - l'efficacité. Nous pensons que positionner le modèle comme un compagnon émotionnel comporte des risques de sécurité et s'écarte de la mission fondamentale de Google en tant que fournisseur d'informations et d'outils.
Rodz : Avez-vous abandonné l'opportunité de croissance virale des “partenaires érotiques”, ce qui constitue-t-il une grave erreur stratégique ?
Woodward : Pas de commentaire. Notre équipe de sécurité a des normes et des directives strictes à ce sujet.
Rodz : Au cours des dernières semaines, la concurrence s'est clairement intensifiée. Pensez-vous que Google est actuellement en tête dans la course à l'IA ?
Hassabis : L'environnement actuel est la compétition la plus intense de l'histoire. La seule chose qui compte véritablement est la vitesse des progrès, et nous en sommes très satisfaits. Nous n'avons jamais perdu notre avance en recherche, et maintenant, il ne reste plus qu'à ce que nos produits atteignent enfin le marché. Nos concurrents excellent en recherche, mais en termes de distribution à grande échelle et d'intégration verticale, ils ne peuvent pas reproduire notre avantage.
Nous injectons Gemini dans des produits utilisés par des milliards d'utilisateurs tels que Maps, YouTube, Android, Search, Workspace, etc. Ce réseau de distribution et ce cycle de retour de données terminal constituent une barrière infranchissable. De plus, notre avantage complet sur des puces TPU personnalisées permet à nos coûts et à notre efficacité d'entraînement de surpasser de loin ceux des concurrents qui dépendent de ressources GPU externes.
Newton : Que pensez-vous des débats concernant la loi des échelles et le rendement décroissant ? Certains estiment que plus le modèle est grand, plus l'effet marginal sur l'amélioration des performances est faible.
Hassabis : C'est un débat continu. Nous sommes très satisfaits des améliorations de Gemini 3 par rapport à 2.5, cela correspond parfaitement à nos attentes. Les retours ne connaissent pas une croissance exponentielle comme auparavant, mais l'augmentation de l'utilité et la fiabilité qu'il apporte dépassent de loin nos coûts marginaux, ce qui justifie pleinement notre investissement. Avant que les 1 à 2 percées de recherche nécessaires pour atteindre l'AGI ne se produisent, il reste la stratégie la plus efficace de continuer à améliorer les performances grâce à des modèles de base de plus grande envergure. Nous croyons que les lois d'échelle demeurent valables.
Lodz : Sommes-nous dans une bulle de l'IA ?
Hassabis : C'est une question trop binaire. Dans certains domaines (comme les entreprises qui ont levé des milliards de dollars lors de leur tour de financement sans produit réel et qui ne parlent que de concepts), il y a effectivement une bulle, les évaluations étant déconnectées des revenus réels. Mais Google possède à la fois une monétisation à court terme (recherche, Workspace, cloud TPU) et de nouvelles pistes à long terme évaluées en trillions (robotique, jeux, découverte de médicaments, science des matériaux, etc.).
Par exemple, nos modèles professionnels tels qu'AlphaFold créent une valeur réelle dans le domaine de la découverte de médicaments, qui est un marché de mille milliards de dollars indépendant de l'évaluation de l'IA grand public. Qu'il y ait ou non une bulle à court terme, nous allons triompher : saisir les opportunités en période de prospérité et faire preuve de résilience grâce à notre avantage full-stack et à notre solide flux de trésorerie en période de contraction.
Newton : Si c'est maintenant une fête de Thanksgiving et que quelqu'un veut changer de sujet politique, que leur conseilleriez-vous de montrer avec Gemini 3 pour impressionner tout le monde ?
Woodward : Je ne sais pas si cela peut sauver Thanksgiving, mais cela peut apporter du rire. Sortez votre téléphone, prenez un selfie, puis laissez Gemini 3 éditer les photos de manière folle.
Notre modèle d'image dans Gemini reste le plus puissant au monde. Vous pouvez instantanément transformer une photo de famille en n'importe quelle scène, style ou époque loufoque. Cela ne manquera pas de faire rire tout le monde. Ensuite, lorsque vous montrez comment cela peut vous aider à rédiger une lettre de démission appropriée ou à générer un calculateur de recettes de fête personnalisé, ils exploreront naturellement d'autres nouvelles fonctionnalités.