Escanea para descargar la aplicación Gate
qrCode
Más opciones de descarga
No volver a recordar hoy

Diferencias tecnológicas entre las GPU de NVIDIA y los chips de IA desarrollados por Google y Amazon AWS, y la dirección futura del mercado.

En la actualidad, cuando la IA generativa está arrasando en todo el mundo, el motor de esta ola de innovación son los chips de inteligencia artificial de alta velocidad. Durante más de diez años, NVIDIA ha sembrado la semilla de la revolución industrial de la IA con sus GPU, y ahora, la GPU Blackwell, diseñada específicamente para el entrenamiento e inferencia de IA más avanzados, se ha convertido en el equipo estándar para centros de datos en todo el mundo, con un volumen de salida que alcanzó los 6 millones el año pasado. En grandes bastidores de servidores, 72 GPU pueden consolidarse a través de la tecnología NVLink para formar una unidad de cómputo que actúa como una sola GPU gigante. Hoy en día, el mercado de chips de IA ya no es un escenario exclusivo de las GPU de NVIDIA; los ASIC personalizados y los FPGA están siendo adoptados por grandes empresas tecnológicas. ¿Cuáles son las diferencias entre estos chips de IA? ¿Cómo afectarán el desarrollo de la IA en el futuro y podrían incluso desafiar la posición dominante de NVIDIA?

GPU: El comienzo de la era dorada de la IA

La GPU pasó de ser una tarjeta de juegos a un núcleo de IA, remontándose a AlexNet de 2012. El equipo de investigación utilizó por primera vez la capacidad de computación paralela de la GPU de NVIDIA para el entrenamiento de redes neuronales, logrando una gran ventaja sobre otros competidores en una competencia de reconocimiento de imágenes, y abriendo así la era del aprendizaje profundo.

Las principales ventajas de la GPU provienen de sus miles de núcleos de procesamiento paralelo, capaces de ejecutar de manera eficiente cálculos tensoriales como la multiplicación de matrices, lo que la hace ideal para el entrenamiento e inferencia de IA. Hoy en día, NVIDIA no solo suministra GPUs a OpenAI, gobiernos y empresas de todo el mundo, sino que también construye directamente sistemas de servidores completos. El precio de un servidor Blackwell de un solo rack alcanza los 3 millones de dólares, y NVIDIA incluso ha revelado que despacha 1000 unidades por semana, lo que demuestra la feroz demanda de potencia de cálculo para IA. Por otro lado, la competencia de NVIDIA, AMD, avanza apoyándose en las GPUs Instinct y un ecosistema de software de código abierto, y recientemente ha recibido el apoyo de OpenAI y Oracle, convirtiéndose en un actor clave en el mercado de infraestructura de IA. La diferencia de las GPUs de AMD radica en su uso principal de software de código abierto, mientras que las GPUs de NVIDIA están optimizadas en torno a CUDA, que es la plataforma de software propietaria de NVIDIA.

Los ASIC diseñados específicamente para un solo propósito se están convirtiendo en una nueva tendencia.

Desde Google, Amazon, Meta, Microsoft, hasta OpenAI y Broadcom, los grandes gigantes de la nube están invirtiendo en el desarrollo de ASIC (circuitos integrados de aplicación específica) personalizados. Se espera que estos chips diseñados para un solo propósito se conviertan en la categoría de chips de IA de más rápido crecimiento en los próximos años.

A medida que los grandes modelos de lenguaje alcanzan su madurez, la demanda de inferencia está superando rápidamente la de entrenamiento. El costo, el consumo de energía y la estabilidad de la inferencia se han convertido en puntos críticos para las plataformas en la nube, y este es precisamente el campo de batalla principal de los ASIC. A diferencia de las GPU versátiles, los ASIC son como una “herramienta de precisión dedicada”, optimizados mediante codificación rígida para un solo tipo de carga de trabajo de IA, lo que les permite ser más rápidos y consumir menos energía. La desventaja es que tienen menor flexibilidad y un umbral de desarrollo extremadamente alto; el costo de diseño de un chip personalizado puede alcanzar miles de millones de dólares, por lo que solo los gigantes de la nube pueden permitírselo.

El costo de los ASIC personalizados para IA es mucho más alto. Extremadamente caro, requiere al menos miles e incluso cientos de millones de dólares. Pero para aquellos proveedores de servicios en la nube de gran tamaño que no pueden permitirse ASIC personalizados, los AS6 personalizados pueden ofrecer un retorno porque son más eficientes en términos de energía y reducen la dependencia de NVIDIA.

La fuerte competencia de ASIC de Broadcom desafía la cuota de mercado de la IA.

Broadcom y empresas de diseño de chips como Marvell son socios estratégicos clave para las empresas de nube de gran escala. Google TPU, el acelerador propio de Meta, y el ASIC que pronto lanzará OpenAI, todos están profundamente involucrados con Broadcom. Broadcom ayuda a construir el TPU de Google y el entrenamiento de inferencia de IA de Meta. Los analistas estiman que la participación de mercado de Broadcom en el mercado de ASIC personalizados puede alcanzar entre el 70 % y el 80 %.

FPGA: una opción flexible entre ASIC y GPU

FPGA se utiliza como un chip que proporciona soporte para la IA en el borde en el lado del dispositivo en lugar de en la nube. La mayor ventaja de FPGA radica en su “reconfigurabilidad”. Cuando las empresas necesitan probar arquitecturas mientras el hardware aún no está definido, FPGA ofrece una opción que se encuentra entre la versatilidad de GPU y el alto rendimiento de ASIC. Aunque su rendimiento no alcanza al de ASIC, su flexibilidad aún lo hace popular entre los centros de datos y dispositivos embebidos. AMD (que adquirió Xilinx) e Intel (que adquirió Altera) son los dos principales actores del mercado de FPGA.

Google TPU

Google es el primer gran jugador en ASIC, siendo pionero en la creación de circuitos integrados de aplicación específica (ASIC) personalizados para la aceleración de inteligencia artificial, y al lanzar su primer ASIC en 2015, creó el término Tensor Processing Unit (unidad de procesamiento de tensores, TPU). La TPU también facilitó que Google inventara la arquitectura Transformer en 2017, que se convirtió en la base común de AI como ChatGPT y Claude. Hoy en día, Google ha desarrollado la 7ª generación de TPU Ironwood, y ha ayudado a Anthropologie a utilizar millones de TPU para entrenar los modelos de la serie Claude. Se rumorea que la TPU supera a las GPU de Nvidia en ciertas situaciones, pero Google tradicionalmente solo las utiliza internamente, por lo que el verdadero potencial de la TPU aún no se ha liberado por completo.

AWS Tranium: matriz de inferencia en la nube

AWS, tras adquirir Annapurna Labs, se ha volcado en sus propios chips de IA. Tranium e Inferentia se han convertido en pilares importantes de la plataforma de entrenamiento y razonamiento de AWS. Tranium está compuesto por un gran número de pequeños motores de tensor, es altamente flexible y, según AWS, ofrece una relación calidad-precio un 30% a 40% superior a otros hardware en la nube. En 2024, Anthropic entrenará modelos en el centro de datos de AWS en el norte de Indiana con 500,000 Tranium 2, sin utilizar en absoluto GPU de Nvidia, lo que demuestra que la posición de los ASIC está en ascenso.

NPU (procesador de red neuronal): chip de IA de borde para teléfonos móviles, computadoras y dispositivos automotrices.

Además de los centros de datos, los chips de IA también se extienden a dispositivos personales. El NPU (procesador de red neuronal) es un chip diseñado específicamente para ejecutar inteligencia artificial en el dispositivo, en lugar de hacerlo en la nube, lo que puede garantizar la privacidad personal. Ahora está integrado en los SoC de Qualcomm Snapdragon, AMD, Intel y la serie M de Apple, utilizados en teléfonos móviles, laptops, hogares inteligentes, automóviles e incluso robots. La IA en el lado del dispositivo traerá una mayor protección de la privacidad, menor latencia y un mayor control, siendo un impulso importante para la próxima ola de popularización de la IA.

Taiwan Semiconductor Manufacturing Company se ha convertido en el núcleo de la guerra por los chips

Ya sea a través de la arquitectura Blackwell de NVIDIA, Google TPU o AWS Tranium, la mayoría de los chips de IA son finalmente fabricados por TSMC. Esto vincula estrechamente el suministro de potencia de IA con la geopolítica global. Estados Unidos está tratando de recuperar parte de la capacidad de fabricación de chips a través de la planta de TSMC en Arizona y el proceso de 18A de Intel. Sin embargo, empresas chinas como Huawei y Alibaba también están activamente desarrollando sus propios ASIC, buscando soluciones locales bajo las restricciones de exportación.

La era de los chips de IA ha llegado.

Ya sea el fuerte dominio de las GPU de NVIDIA o el camino de ASIC y NPU de empresas como Google, AWS, Meta y OpenAI, que están llevando la IA en la frontera a cada teléfono móvil y automóvil, la guerra de chips sigue intensificándose. Aunque no es fácil desafiar la posición de NVIDIA, el mercado de IA es enorme y nuevos jugadores continúan ingresando, por lo que el mapa de chips en la próxima década será indudablemente más feroz.

Este artículo sobre las diferencias tecnológicas entre las GPU de Nvidia y los chips de IA desarrollados por Google y Amazon AWS, así como las tendencias futuras del mercado, apareció por primera vez en Chain News ABMedia.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)