Autor: Wuji, traducción especial de Tencent Technology
El 19 de noviembre, hora de Beijing, después del lanzamiento de la serie de modelos Gemini 3 por parte de Google, el pódcast de tecnología “Hard Fork” del New York Times publicó un programa especial, donde los presentadores Kevin Roose y Casey Newton entrevistaron al CEO de Google DeepMind, Demis Hassabis, y al líder del equipo de Google Gemini, Josh Woodward.
Esta entrevista se centra en el último modelo insignia de IA de Google, Gemini 3 (en realidad, la versión Pro de la serie Gemini 3.0), que es ampliamente considerado como un lanzamiento emblemático que marca el regreso de Google a una posición de liderazgo en tecnología y productos, después de haber experimentado el fracaso de Bard y las etapas de seguimiento de Gemini 1.x y 2.x.
Los dos responsables explicaron en detalle los avances de Gemini 3 en razonamiento en múltiples pasos, generación de código (especialmente en el front-end y “código ambiental”), y generación dinámica de interfaces interactivas, enfatizando que Google ha llevado rápidamente su modelo más fuerte a productos para miles de millones de usuarios como búsqueda, Gmail y Workspace, redefiniendo las barreras de competencia.
Puntos clave de la entrevista:
Gemini 3 cumple completamente con la trayectoria de desarrollo esperada, se requieren de 5 a 10 años y de 1 a 2 grandes avances de investigación para alcanzar la inteligencia artificial general (AGI);
La ventaja integral de Google en eficiencia, costos y distribución le permitirá sobresalir en cualquier entorno de mercado;
Existen burbujas en IA, pero Google tiene al mismo tiempo la doble garantía de monetización a corto plazo y un nuevo campo de billones a largo plazo.
A continuación se presenta una versión resumida de la entrevista.
Rodz: Casey, hoy hemos programado un programa especial de manera improvisada, el tema es el lanzamiento de Gemini 3.
Newton: Sí, Kevin. Este modelo ha sido esperado durante mucho tiempo en el círculo de IA de Silicon Valley, finalmente vamos a experimentar el verdadero producto terminado.
Rodz: La razón por la que rompimos el ritmo habitual de lanzamiento del viernes y grabamos este episodio en particular se debe a dos motivos principales. Primero, tuvimos la oportunidad de entrevistar a dos líderes clave de IA de Google (el CEO de DeepMind, Demis Hassabis, y el vicepresidente del equipo de Gemini, William Woodward).
En segundo lugar, el lanzamiento de Gemini 3 ha generado un gran interés en la industria. Hemos escuchado informes internos de varios laboratorios que indican que este modelo ha logrado avances en ciertos campos clave, lo que podría representar una amenaza sustancial para sus competidores. En los últimos dos años, Google fue considerado un perseguidor; ahora la pregunta es: ¿han vuelto a la posición de liderazgo?
Newton: Antes de entrar en la entrevista formal, primero presentaremos brevemente la información conocida. Google celebró una reunión informativa a puerta cerrada antes del lanzamiento, y las nuevas capacidades más destacadas de Gemini 3 incluyen: una capacidad de codificación y “codificación ambiental” significativamente mejorada; así como una nueva función de generación de interfaces interactivas.
Ya no solo genera texto, sino que crea interfaces interactivas personalizadas para los usuarios. Por ejemplo, cuando un usuario pregunta sobre la vida de Van Gogh, el modelo genera instantáneamente una página de aprendizaje completa que incluye imágenes, una línea de tiempo y elementos interactivos; así como una calculadora de hipotecas para propiedades de más de un millón de dólares. Estas funciones marcan la transición de “responder preguntas” a “construir experiencias”.
Rodz: En todas las pruebas de referencia públicas, Gemini 3 supera con creces a Gemini 2.5 Pro. Por ejemplo, en un conjunto de problemas interdisciplinarios de nivel doctoral conocido como “El último examen de la humanidad” (Humanity's Last Exam), el primero obtuvo una puntuación del 21.6%, mientras que el segundo se elevó directamente al 37.5%. La declaración general de Google es: cualquier tarea que puedas realizar en ChatGPT, Claude o en otras versiones anteriores de Gemini, se puede hacer mejor en Gemini 3.
Newton: También mostraron una demostración temprana de Gemini Agent: el modelo puede acceder profundamente al correo del usuario, entender todo el contenido de los correos, clasificar automáticamente, redactar respuestas e incluso ayudar al usuario a vaciar completamente la bandeja de entrada.
Además, a partir de esta semana, Gemini 3 estará disponible en la aplicación Gemini y en el modo AI de Google Search; los estudiantes universitarios de EE. UU. obtendrán un año de acceso gratuito a la versión premium. La palabra clave que Google ha enfatizado repetidamente es “Learn Anything”, lo que en realidad posiciona a Gemini como la herramienta de educación personalizada definitiva.
Rodz: Demis, Josh, bienvenidos a “Hard Fork”. Hace dos años, Sundar Pichai comparó a Bard con “un Honda Civic modificado”, compitiendo en la pista contra rivales más fuertes. Entonces, ¿qué tipo de coche es Gemini 3?
Hassabis: Espero que sea mucho más rápido que un Honda Civic. No estoy muy acostumbrado a usar coches como metáfora, quizás se asemeje más a un coche de arrastre profesional (Drag Racer). No está diseñado para la conducción diaria o para circuitos, tiene una fuerza pura, concentrada en un objetivo específico. Representa la perfecta combinación de nuestros más destacados logros de investigación y poder computacional a gran escala, con el objetivo de demostrar una capacidad de explosión instantánea inigualable en esta carrera en la vanguardia de la inteligencia.
Rózdz: Esto es interesante. ¿Qué cosas nuevas puede hacer Gemini 3 en un nivel concreto en comparación con todos los modelos de IA anteriores? Por favor, danos algunos ejemplos cuantificables y prácticos.
Woodward: Hay tres puntos destacados. Primero, en el razonamiento multietapa, puede pensar en más pasos simultáneamente, elevando su fiabilidad a un nuevo nivel. Los modelos anteriores a menudo “perdían el hilo” o producían alucinaciones cuando llegaban a las complejas deducciones lógicas en el 5º o 6º paso, mientras que Gemini 3 puede completar de manera fiable tareas de razonamiento coherente de 10 a 15 pasos, como la planificación fiscal compleja, la planificación y reserva integral de viajes internacionales, o la depuración completa de un sistema masivo con millones de líneas de código.
En segundo lugar, generará por primera vez una nueva interfaz de usuario a gran escala. Las necesidades de los usuarios ya no son respuestas simples en texto, sino componentes de software personalizados. Por ejemplo, si le preguntas: “Ayúdame a diseñar un panel que pueda rastrear todas mis carteras de inversión”, generará en tiempo real una interfaz de panel interactivo y utilizable, en lugar de un montón de texto describiendo cómo crear un panel.
En tercer lugar, hemos invertido enormes recursos en la capacidad de codificación, especialmente en el front-end y la “codificación atmosférica”, lo que significa que puede generar código de interfaz de usuario completo y bellamente diseñado basado en indicaciones en lenguaje natural. Los nuevos productos que se lanzarán pronto, como Google Antigravity, también demostrarán plenamente esto, ya que el modelo puede cambiar dinámicamente el diseño y las funciones de la interfaz de usuario según el contexto.
Newton: Muchas personas creen que, para el usuario promedio, el caso de uso de “chatear” ya está prácticamente resuelto. Ni siquiera pueden imaginar qué nuevo problema podría hacer que las respuestas de Gemini 3 se diferencien cualitativamente de las de la generación anterior. ¿Cuál es tu opinión sobre este punto de vista?
Woodward: Entiendo este punto de vista. A primera vista, la tasa de precisión de las preguntas y respuestas básicas ya es bastante alta. Pero la verdadera diferencia radica en la confiabilidad, el grado de integración y la forma en que se presenta la información. Las respuestas de Gemini 3 serán más concisas, más expresivas y la forma de presentar la información será más fácil de entender, un cambio que la mayoría de las personas puede percibir de inmediato.
Lo más importante es que el modelo comienza a integrarse profundamente con otras fuentes de datos del usuario, como la interacción con otros productos dentro del ecosistema de Google, superando así el simple modo de preguntas y respuestas, y convirtiéndose en el “mayordomo digital” del usuario. Puede comprender el contexto de todo tu correo electrónico, de modo que al redactar respuestas, no solo responde preguntas, sino que también puede ajustar el tono y el contenido según tu estilo pasado y tu relación con el destinatario.
Hassabis: Estoy completamente de acuerdo. Su fiabilidad, estilo y personalidad están cuidadosamente pulidos, más concisos y más al grano. En escenarios como la “codificación de atmósfera”, ya ha superado el umbral de utilidad. Es una transformación de “asistente inteligente” a “compañero inteligente”. Personalmente, planeo usarlo para retomar la programación de juegos durante las vacaciones de Navidad; ahora no solo puede escribir código funcional, sino que también puede ofrecer sugerencias de arquitectura en las etapas iniciales del diseño.
Rodz: Demis, cuando nos entrevistaste en mayo de este año, dijiste que la AGI todavía necesita de 5 a 10 años y podría requerir varios avances significativos. ¿Ha cambiado Gemini 3 este cronograma?
Hassabis: En absoluto. Se ajusta completamente a la trayectoria que establecimos en los últimos dos años. De hecho, desde el lanzamiento de la serie Gemini, nuestra velocidad de progreso ha sido la más rápida en la industria. Gemini 3 es impresionante, pero sigue estando dentro de lo esperado.
Para alcanzar una verdadera inteligencia artificial general, aún necesitamos lograr de 1 a 2 avances clave en consistencia, profundidad de razonamiento, mecanismos de memoria y modelado del mundo físico (como los proyectos SIMA y Genie en los que estamos avanzando). Lo que hacemos ahora es “pensamiento del sistema 1” (rápido e intuitivo), pero para lograr la AGI, debemos desbloquear “pensamiento del sistema 2” (lento, reflexivo y analítico).
Además, el modelo necesita tener un mecanismo de memoria selectivo y a largo plazo que le permita recordar y aplicar contenido de interacciones específicas de hace semanas o meses, en lugar de limitarse a una ventana de contexto limitada. Por lo tanto, el juicio de 5 a 10 años se mantiene sin cambios.
Newton: Sobre la individualidad del modelo y la relación con los usuarios, la industria está debatiendo sobre los “compañeros de IA”. ¿Qué tipo de relación esperas que los usuarios establezcan con Gemini 3?
Woodward: Esta es una cuestión muy sensible pero importante. Lo hemos posicionado como una “super herramienta” en lugar de una pareja emocional, y el valor central es ayudar a los usuarios a completar tareas diarias de manera eficiente y aumentar la productividad. Internamente, nos enfocamos más en un nuevo indicador: ¿cuántas tareas te ayudamos a completar hoy? Esto se acerca más al valor central de la primera generación de búsqueda de Google: la eficiencia. Creemos que posicionar el modelo como una pareja emocional conlleva riesgos de seguridad y se aparta de la misión central de Google como proveedor de información y herramientas.
Rodz: ¿Han cometido un grave error estratégico al abandonar esta oportunidad de crecimiento viral de “compañero erótico”?
Woodward: No comment. Nuestro equipo de seguridad tiene normas y directrices estrictas al respecto.
Rodz: En las últimas semanas, los competidores claramente están tensos. ¿Crees que Google ya está a la cabeza en la carrera de IA?
Hassabis: El entorno actual es la competencia más intensa de la historia. Lo único que realmente importa es la velocidad de progreso, y estamos muy satisfechos con eso. Nunca hemos perdido nuestra posición de liderazgo en investigación, y ahora simplemente estamos alcanzando la implementación del producto. Nuestros competidores son excelentes en investigación, pero no pueden replicar nuestras ventajas en distribución a gran escala e integración vertical.
Estamos inyectando Gemini en productos para miles de millones de usuarios como Maps, YouTube, Android, búsqueda, Workspace, etc. Esta red de distribución y el ciclo de retroalimentación de datos terminales son una muralla infranqueable. Además, nuestra ventaja de pila completa en chips TPU personalizados hace que nuestros costos y eficiencia de entrenamiento superen con creces a los competidores que dependen de recursos GPU externos.
Newton: ¿Qué opinas sobre el debate entre la ley de escalabilidad y el rendimiento decreciente? Algunos creen que, cuanto mayor es el tamaño del modelo, menor es el beneficio marginal en el rendimiento.
Hassabis: Este es un debate en curso. Estamos muy satisfechos con la mejora de Gemini 3 en comparación con 2.5, que cumple totalmente con nuestras expectativas. Los retornos no están creciendo de manera exponencial como antes, pero el incremento en la utilidad y la mejora en la fiabilidad que ha traído todavía superan con creces nuestros costos marginales, lo que sigue valiendo la pena. Hasta que lleguen de 1 a 2 avances de investigación necesarios para alcanzar la AGI, seguir impulsando el rendimiento a través de modelos base a gran escala sigue siendo la estrategia más efectiva en la actualidad. Creemos que la ley de escala sigue siendo válida.
Rodz: ¿Estamos en una burbuja de IA?
Hassabis: Esta es una cuestión demasiado binaria. En ciertos campos (como las empresas que recaudan miles de millones en rondas semilla sin un producto real, solo hablando de conceptos) realmente existe una burbuja, con valoraciones desproporcionadas respecto a los ingresos reales. Pero Google, al mismo tiempo, tiene monetización a corto plazo (búsqueda, Workspace, nube TPU) y nuevas áreas de billones a largo plazo (robótica, juegos, descubrimiento de fármacos, ciencia de materiales, etc.).
Por ejemplo, nuestros modelos profesionales como AlphaFold están creando un valor real en el campo del descubrimiento de fármacos, que es un mercado de trillones de dólares independiente de la valoración de la IA para consumidores. Independientemente de si existe una burbuja a corto plazo, saldremos ganando: aprovechando las oportunidades en tiempos de bonanza y siendo más resilientes en tiempos de contracción gracias a nuestra ventaja de pila completa y un sólido flujo de caja.
Newton: Si ahora es una reunión de Acción de Gracias y alguien quiere cambiar de tema político, ¿qué función sugerirías que muestren con Gemini 3 para impresionar a todos?
Woodward: No sé si puede salvar el Día de Acción de Gracias, pero puede traer risas. Saca tu teléfono, hazte un selfie y luego deja que Gemini 3 edite la foto de manera loca.
Nuestro modelo de imágenes en Gemini sigue siendo el más poderoso a nivel mundial. Puedes transformar instantáneamente una foto familiar en cualquier escena divertida, estilo o contexto de época. Sin duda provocará risas en todo el lugar. Luego, cuando muestres cómo puede ayudarte a redactar una carta de renuncia apropiada o generar un calculador de recetas festivas personalizado, naturalmente comenzarán a explorar otras nuevas funciones.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Después del lanzamiento de Gemini3, el equipo se pronunció: tres puntos de innovación, la ley de escala sigue siendo válida.
Autor: Wuji, traducción especial de Tencent Technology
El 19 de noviembre, hora de Beijing, después del lanzamiento de la serie de modelos Gemini 3 por parte de Google, el pódcast de tecnología “Hard Fork” del New York Times publicó un programa especial, donde los presentadores Kevin Roose y Casey Newton entrevistaron al CEO de Google DeepMind, Demis Hassabis, y al líder del equipo de Google Gemini, Josh Woodward.
Esta entrevista se centra en el último modelo insignia de IA de Google, Gemini 3 (en realidad, la versión Pro de la serie Gemini 3.0), que es ampliamente considerado como un lanzamiento emblemático que marca el regreso de Google a una posición de liderazgo en tecnología y productos, después de haber experimentado el fracaso de Bard y las etapas de seguimiento de Gemini 1.x y 2.x.
Los dos responsables explicaron en detalle los avances de Gemini 3 en razonamiento en múltiples pasos, generación de código (especialmente en el front-end y “código ambiental”), y generación dinámica de interfaces interactivas, enfatizando que Google ha llevado rápidamente su modelo más fuerte a productos para miles de millones de usuarios como búsqueda, Gmail y Workspace, redefiniendo las barreras de competencia.
Puntos clave de la entrevista:
A continuación se presenta una versión resumida de la entrevista.
Rodz: Casey, hoy hemos programado un programa especial de manera improvisada, el tema es el lanzamiento de Gemini 3.
Newton: Sí, Kevin. Este modelo ha sido esperado durante mucho tiempo en el círculo de IA de Silicon Valley, finalmente vamos a experimentar el verdadero producto terminado.
Rodz: La razón por la que rompimos el ritmo habitual de lanzamiento del viernes y grabamos este episodio en particular se debe a dos motivos principales. Primero, tuvimos la oportunidad de entrevistar a dos líderes clave de IA de Google (el CEO de DeepMind, Demis Hassabis, y el vicepresidente del equipo de Gemini, William Woodward).
En segundo lugar, el lanzamiento de Gemini 3 ha generado un gran interés en la industria. Hemos escuchado informes internos de varios laboratorios que indican que este modelo ha logrado avances en ciertos campos clave, lo que podría representar una amenaza sustancial para sus competidores. En los últimos dos años, Google fue considerado un perseguidor; ahora la pregunta es: ¿han vuelto a la posición de liderazgo?
Newton: Antes de entrar en la entrevista formal, primero presentaremos brevemente la información conocida. Google celebró una reunión informativa a puerta cerrada antes del lanzamiento, y las nuevas capacidades más destacadas de Gemini 3 incluyen: una capacidad de codificación y “codificación ambiental” significativamente mejorada; así como una nueva función de generación de interfaces interactivas.
Ya no solo genera texto, sino que crea interfaces interactivas personalizadas para los usuarios. Por ejemplo, cuando un usuario pregunta sobre la vida de Van Gogh, el modelo genera instantáneamente una página de aprendizaje completa que incluye imágenes, una línea de tiempo y elementos interactivos; así como una calculadora de hipotecas para propiedades de más de un millón de dólares. Estas funciones marcan la transición de “responder preguntas” a “construir experiencias”.
Rodz: En todas las pruebas de referencia públicas, Gemini 3 supera con creces a Gemini 2.5 Pro. Por ejemplo, en un conjunto de problemas interdisciplinarios de nivel doctoral conocido como “El último examen de la humanidad” (Humanity's Last Exam), el primero obtuvo una puntuación del 21.6%, mientras que el segundo se elevó directamente al 37.5%. La declaración general de Google es: cualquier tarea que puedas realizar en ChatGPT, Claude o en otras versiones anteriores de Gemini, se puede hacer mejor en Gemini 3.
Newton: También mostraron una demostración temprana de Gemini Agent: el modelo puede acceder profundamente al correo del usuario, entender todo el contenido de los correos, clasificar automáticamente, redactar respuestas e incluso ayudar al usuario a vaciar completamente la bandeja de entrada.
Además, a partir de esta semana, Gemini 3 estará disponible en la aplicación Gemini y en el modo AI de Google Search; los estudiantes universitarios de EE. UU. obtendrán un año de acceso gratuito a la versión premium. La palabra clave que Google ha enfatizado repetidamente es “Learn Anything”, lo que en realidad posiciona a Gemini como la herramienta de educación personalizada definitiva.
Rodz: Demis, Josh, bienvenidos a “Hard Fork”. Hace dos años, Sundar Pichai comparó a Bard con “un Honda Civic modificado”, compitiendo en la pista contra rivales más fuertes. Entonces, ¿qué tipo de coche es Gemini 3?
Hassabis: Espero que sea mucho más rápido que un Honda Civic. No estoy muy acostumbrado a usar coches como metáfora, quizás se asemeje más a un coche de arrastre profesional (Drag Racer). No está diseñado para la conducción diaria o para circuitos, tiene una fuerza pura, concentrada en un objetivo específico. Representa la perfecta combinación de nuestros más destacados logros de investigación y poder computacional a gran escala, con el objetivo de demostrar una capacidad de explosión instantánea inigualable en esta carrera en la vanguardia de la inteligencia.
Rózdz: Esto es interesante. ¿Qué cosas nuevas puede hacer Gemini 3 en un nivel concreto en comparación con todos los modelos de IA anteriores? Por favor, danos algunos ejemplos cuantificables y prácticos.
Woodward: Hay tres puntos destacados. Primero, en el razonamiento multietapa, puede pensar en más pasos simultáneamente, elevando su fiabilidad a un nuevo nivel. Los modelos anteriores a menudo “perdían el hilo” o producían alucinaciones cuando llegaban a las complejas deducciones lógicas en el 5º o 6º paso, mientras que Gemini 3 puede completar de manera fiable tareas de razonamiento coherente de 10 a 15 pasos, como la planificación fiscal compleja, la planificación y reserva integral de viajes internacionales, o la depuración completa de un sistema masivo con millones de líneas de código.
En segundo lugar, generará por primera vez una nueva interfaz de usuario a gran escala. Las necesidades de los usuarios ya no son respuestas simples en texto, sino componentes de software personalizados. Por ejemplo, si le preguntas: “Ayúdame a diseñar un panel que pueda rastrear todas mis carteras de inversión”, generará en tiempo real una interfaz de panel interactivo y utilizable, en lugar de un montón de texto describiendo cómo crear un panel.
En tercer lugar, hemos invertido enormes recursos en la capacidad de codificación, especialmente en el front-end y la “codificación atmosférica”, lo que significa que puede generar código de interfaz de usuario completo y bellamente diseñado basado en indicaciones en lenguaje natural. Los nuevos productos que se lanzarán pronto, como Google Antigravity, también demostrarán plenamente esto, ya que el modelo puede cambiar dinámicamente el diseño y las funciones de la interfaz de usuario según el contexto.
Newton: Muchas personas creen que, para el usuario promedio, el caso de uso de “chatear” ya está prácticamente resuelto. Ni siquiera pueden imaginar qué nuevo problema podría hacer que las respuestas de Gemini 3 se diferencien cualitativamente de las de la generación anterior. ¿Cuál es tu opinión sobre este punto de vista?
Woodward: Entiendo este punto de vista. A primera vista, la tasa de precisión de las preguntas y respuestas básicas ya es bastante alta. Pero la verdadera diferencia radica en la confiabilidad, el grado de integración y la forma en que se presenta la información. Las respuestas de Gemini 3 serán más concisas, más expresivas y la forma de presentar la información será más fácil de entender, un cambio que la mayoría de las personas puede percibir de inmediato.
Lo más importante es que el modelo comienza a integrarse profundamente con otras fuentes de datos del usuario, como la interacción con otros productos dentro del ecosistema de Google, superando así el simple modo de preguntas y respuestas, y convirtiéndose en el “mayordomo digital” del usuario. Puede comprender el contexto de todo tu correo electrónico, de modo que al redactar respuestas, no solo responde preguntas, sino que también puede ajustar el tono y el contenido según tu estilo pasado y tu relación con el destinatario.
Hassabis: Estoy completamente de acuerdo. Su fiabilidad, estilo y personalidad están cuidadosamente pulidos, más concisos y más al grano. En escenarios como la “codificación de atmósfera”, ya ha superado el umbral de utilidad. Es una transformación de “asistente inteligente” a “compañero inteligente”. Personalmente, planeo usarlo para retomar la programación de juegos durante las vacaciones de Navidad; ahora no solo puede escribir código funcional, sino que también puede ofrecer sugerencias de arquitectura en las etapas iniciales del diseño.
Rodz: Demis, cuando nos entrevistaste en mayo de este año, dijiste que la AGI todavía necesita de 5 a 10 años y podría requerir varios avances significativos. ¿Ha cambiado Gemini 3 este cronograma?
Hassabis: En absoluto. Se ajusta completamente a la trayectoria que establecimos en los últimos dos años. De hecho, desde el lanzamiento de la serie Gemini, nuestra velocidad de progreso ha sido la más rápida en la industria. Gemini 3 es impresionante, pero sigue estando dentro de lo esperado.
Para alcanzar una verdadera inteligencia artificial general, aún necesitamos lograr de 1 a 2 avances clave en consistencia, profundidad de razonamiento, mecanismos de memoria y modelado del mundo físico (como los proyectos SIMA y Genie en los que estamos avanzando). Lo que hacemos ahora es “pensamiento del sistema 1” (rápido e intuitivo), pero para lograr la AGI, debemos desbloquear “pensamiento del sistema 2” (lento, reflexivo y analítico).
Además, el modelo necesita tener un mecanismo de memoria selectivo y a largo plazo que le permita recordar y aplicar contenido de interacciones específicas de hace semanas o meses, en lugar de limitarse a una ventana de contexto limitada. Por lo tanto, el juicio de 5 a 10 años se mantiene sin cambios.
Newton: Sobre la individualidad del modelo y la relación con los usuarios, la industria está debatiendo sobre los “compañeros de IA”. ¿Qué tipo de relación esperas que los usuarios establezcan con Gemini 3?
Woodward: Esta es una cuestión muy sensible pero importante. Lo hemos posicionado como una “super herramienta” en lugar de una pareja emocional, y el valor central es ayudar a los usuarios a completar tareas diarias de manera eficiente y aumentar la productividad. Internamente, nos enfocamos más en un nuevo indicador: ¿cuántas tareas te ayudamos a completar hoy? Esto se acerca más al valor central de la primera generación de búsqueda de Google: la eficiencia. Creemos que posicionar el modelo como una pareja emocional conlleva riesgos de seguridad y se aparta de la misión central de Google como proveedor de información y herramientas.
Rodz: ¿Han cometido un grave error estratégico al abandonar esta oportunidad de crecimiento viral de “compañero erótico”?
Woodward: No comment. Nuestro equipo de seguridad tiene normas y directrices estrictas al respecto.
Rodz: En las últimas semanas, los competidores claramente están tensos. ¿Crees que Google ya está a la cabeza en la carrera de IA?
Hassabis: El entorno actual es la competencia más intensa de la historia. Lo único que realmente importa es la velocidad de progreso, y estamos muy satisfechos con eso. Nunca hemos perdido nuestra posición de liderazgo en investigación, y ahora simplemente estamos alcanzando la implementación del producto. Nuestros competidores son excelentes en investigación, pero no pueden replicar nuestras ventajas en distribución a gran escala e integración vertical.
Estamos inyectando Gemini en productos para miles de millones de usuarios como Maps, YouTube, Android, búsqueda, Workspace, etc. Esta red de distribución y el ciclo de retroalimentación de datos terminales son una muralla infranqueable. Además, nuestra ventaja de pila completa en chips TPU personalizados hace que nuestros costos y eficiencia de entrenamiento superen con creces a los competidores que dependen de recursos GPU externos.
Newton: ¿Qué opinas sobre el debate entre la ley de escalabilidad y el rendimiento decreciente? Algunos creen que, cuanto mayor es el tamaño del modelo, menor es el beneficio marginal en el rendimiento.
Hassabis: Este es un debate en curso. Estamos muy satisfechos con la mejora de Gemini 3 en comparación con 2.5, que cumple totalmente con nuestras expectativas. Los retornos no están creciendo de manera exponencial como antes, pero el incremento en la utilidad y la mejora en la fiabilidad que ha traído todavía superan con creces nuestros costos marginales, lo que sigue valiendo la pena. Hasta que lleguen de 1 a 2 avances de investigación necesarios para alcanzar la AGI, seguir impulsando el rendimiento a través de modelos base a gran escala sigue siendo la estrategia más efectiva en la actualidad. Creemos que la ley de escala sigue siendo válida.
Rodz: ¿Estamos en una burbuja de IA?
Hassabis: Esta es una cuestión demasiado binaria. En ciertos campos (como las empresas que recaudan miles de millones en rondas semilla sin un producto real, solo hablando de conceptos) realmente existe una burbuja, con valoraciones desproporcionadas respecto a los ingresos reales. Pero Google, al mismo tiempo, tiene monetización a corto plazo (búsqueda, Workspace, nube TPU) y nuevas áreas de billones a largo plazo (robótica, juegos, descubrimiento de fármacos, ciencia de materiales, etc.).
Por ejemplo, nuestros modelos profesionales como AlphaFold están creando un valor real en el campo del descubrimiento de fármacos, que es un mercado de trillones de dólares independiente de la valoración de la IA para consumidores. Independientemente de si existe una burbuja a corto plazo, saldremos ganando: aprovechando las oportunidades en tiempos de bonanza y siendo más resilientes en tiempos de contracción gracias a nuestra ventaja de pila completa y un sólido flujo de caja.
Newton: Si ahora es una reunión de Acción de Gracias y alguien quiere cambiar de tema político, ¿qué función sugerirías que muestren con Gemini 3 para impresionar a todos?
Woodward: No sé si puede salvar el Día de Acción de Gracias, pero puede traer risas. Saca tu teléfono, hazte un selfie y luego deja que Gemini 3 edite la foto de manera loca.
Nuestro modelo de imágenes en Gemini sigue siendo el más poderoso a nivel mundial. Puedes transformar instantáneamente una foto familiar en cualquier escena divertida, estilo o contexto de época. Sin duda provocará risas en todo el lugar. Luego, cuando muestres cómo puede ayudarte a redactar una carta de renuncia apropiada o generar un calculador de recetas festivas personalizado, naturalmente comenzarán a explorar otras nuevas funciones.