Mensaje de Coinjie.com, Qwen ha abierto el código de FlashQLA, un conjunto de operadores de alto rendimiento para GDN (red delta con compuerta, capa de atención lineal utilizada en toda la serie Qwen3-next / 3.5 / 3.6). En pruebas en H200, la velocidad de cálculo hacia adelante es de 2 a 3 veces más rápida que el kernel Fla Triton, y la velocidad de cálculo hacia atrás es el doble. En escenarios TP8, la velocidad hacia adelante puede alcanzar hasta 5.33 veces. La clave para la aceleración radica en aprovechar la característica de decaimiento exponencial del valor de la compuerta GDN para lograr la paralelización automática del contexto en la tarjeta (autocp), saltándose el paso de calcular la matriz de corrección en los métodos tradicionales. El sistema determinará automáticamente si habilitar CP según el tamaño del lote, el número de cabezas y la longitud de la secuencia, sin necesidad de configuración manual.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado