Acabo de probar Index TTS2, y el techo de clonación de voz de código abierto ha sido elevado nuevamente.



La mayor diferencia con otros TTS es la “control de emociones”. No es una lectura mecánica, puedes especificar que hable con tonos de “tristeza, ira, excitación extrema”, e incluso controlar la velocidad y las pausas. Mecanismo Zero-Shot, simplemente inserta 10 segundos de audio para clonar directamente.

Pero la implementación original en Github es extremadamente antipática. Requiere CUDA, dependencias de Python, entorno de compilación en C++. Ejecutar el código nativo en una computadora normal puede dar errores durante todo un día.

Para uso propio del equipo, he empaquetado todas las dependencias del entorno. He creado un paquete de integración con un solo clic para versiones Windows / Mac.

· Descomprimir (atención a no incluir caracteres chinos en la ruta)
· Hacer doble clic en start-one-click.bat
· Operar directamente a través de WebUI en la interfaz web
Ejecutado localmente y sin gastar un centavo en tokens. ¡Contáctame por privado si lo necesitas!
Dirección del proyecto de código abierto:
Ver originales
post-image
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)