LatentSync es una innovadora tecnología de código abierto desarrollada por ByteDance en 2023 que permite una sincronización labial de alta precisión basada en el audio. La tecnología se basa en un modelo de difusión latente de las condiciones de audio y permite sincronizar con precisión los movimientos labiales de los personajes en vídeo con el audio sin necesidad de representaciones de movimiento intermedias.
funcionalidad básica
- Sincronización labial de extremo a extremo
LatentSync utiliza un marco de sincronización labial integral que aprovecha directamente la potencia de la difusión estable para modelar complejas correlaciones audiovisuales y lograr una sincronización labial de gran precisión. - Alineación de la representación temporal (TREPA)
Para subsanar las deficiencias de los enfoques basados en la difusión en términos de coherencia temporal, LatentSync introduce una técnica de alineación de la representación temporal.TREPA utiliza representaciones temporales extraídas de un amplio modelo de vídeo autosupervisado para alinear los fotogramas generados con los fotogramas reales con el fin de mejorar la coherencia temporal y mantener al mismo tiempo la precisión de la sincronización labial. - Modelo SyncNet optimizado
Al optimizar la arquitectura del modelo SyncNet, los hiperparámetros de entrenamiento y los métodos de preprocesamiento de datos, LatentSync mejora significativamente la precisión de la sincronización labial. La precisión en el conjunto de pruebas HDTF mejoró de 91% a 94%.
escenario de aplicación
- Producciones Humanas DigitalesLatentSync puede utilizarse para generar movimientos labiales humanos digitales que se ajusten al audio, mejorando el realismo de aplicaciones como presentadores virtuales y asistentes virtuales.
- postproducción: En la producción de cine y televisión, LatentSync puede utilizarse para la sincronización labial posterior al doblaje, lo que reduce los ajustes manuales y mejora la eficacia de la producción.
- Animación de personajes: Proporciona una sincronización labial precisa para los personajes del juego con el fin de mejorar la experiencia inmersiva del jugador.
Utilización
- Obtener códigoPara clonar o descargar el código, visite la página del proyecto LatentSync en GitHub.
- Configuración del entornoConfigure el entorno de ejecución y las dependencias necesarias de acuerdo con las directrices proporcionadas por el proyecto.
- formación de modelosEntrene el modelo o utilice un modelo preentrenado utilizando el conjunto de datos de entrenamiento proporcionado, de acuerdo con la documentación del proyecto.
- entrada de audioProporciona el archivo de audio que se procesará como entrada al modelo.
- Generar vídeoEjecuta el modelo para generar un vídeo de los movimientos de los labios sincronizado con el audio de entrada.
- post-procesamientoTratamiento posterior y edición del vídeo generado según sea necesario.
Características de la herramienta
- muy precisoSincronización de alta precisión del audio con los movimientos de los labios mediante una arquitectura de modelos de extremo a extremo.
- coherencia temporalEl objetivo de este proyecto es introducir una técnica de alineación de la representación temporal para garantizar la coherencia temporal del vídeo generado.
- compartir código abiertoComo proyecto de código abierto, el código y los parámetros del modelo de LatentSync están a disposición del público, lo que facilita a los desarrolladores su doble uso y desarrollo.
- optimizar el rendimientoLa optimización de los modelos existentes mejora la precisión de la sincronización labial y la velocidad de convergencia del modelo.
El código abierto de LatentSync ofrece una nueva solución para la tecnología de sincronización labial basada en audio, lo que supone un avance en los campos de la gente digital, la producción de cine y televisión y la animación de juegos. Desarrolladores e investigadores pueden utilizar esta tecnología para crear personajes y animaciones virtuales más realistas y naturales.
El siguiente vídeo le proporcionará un tutorial más intuitivo sobre el uso de LatentSync:
LatentSync: ByteDance abre el acceso a los artefactos de producción humana digital y de vídeo basados en audio
📢 Descargo de responsabilidad | Recordatorio de uso de la herramienta
1️⃣ El contenido de este artículo se basa en la información conocida en el momento de su publicación. La tecnología y las herramientas de IA se actualizan con frecuencia; consulte las últimas instrucciones oficiales.
2️⃣ Las herramientas recomendadas han sido sometidas a un control básico pero no a una validación de seguridad en profundidad, por lo que le recomendamos que evalúe usted mismo la idoneidad y el riesgo.
3️⃣ Cuando utilices herramientas de IA de terceros, presta atención a la protección de la privacidad de los datos y evita cargar información sensible.
4️⃣ Este sitio web no se hace responsable de los daños directos/indirectos debidos al mal uso de la herramienta, fallos técnicos o desviaciones del contenido.
5️⃣ Algunas herramientas pueden implicar una suscripción de pago, por favor tome una decisión racional, este sitio no contiene ningún consejo de inversión.