← ATRÁS
PAPER·ia · ensayo · sistemas

Lumos-Nexus: Puenteo Eficiente de Frecuencia con Espacio Latente Homogéneo para Modelos Unificados de Video (2023)

2 min de lecturavisitas

Abstract

Los modelos unificados de video basados en conectores han demostrado una gran capacidad en la síntesis de video basada en instrucciones, pero la integración de un generador de alta fidelidad grande en el bucle de entrenamiento unificado es computacionalmente prohibitiva, lo que limita la calidad visual alcanzable.

Propuesta de Lumos-Nexus

Por lo tanto, proponemos Lumos-Nexus, un marco de generación de video unificado eficiente en entrenamiento que facilita el desarrollo de capacidades de generación impulsadas por razonamiento fuertes mientras mejora significativamente la fidelidad visual. Lumos-Nexus adopta un diseño de dos etapas: 1) Durante el entrenamiento, solo un generador ligero se alinea con el bloque de comprensión para aprender a recibir control semántico impulsado por razonamiento. Transformadores pueden ser utilizados para mejorar la comprensión del lenguaje en este bloque.

Arquitectura de Lumos-Nexus

2) Durante la inferencia, introducimos el Puenteo de Frecuencia Progresivo Unificado (UPFB) para progresivamente entregar la generación a un generador preentrenado de alta capacidad en el espacio latente compartido, lo que permite un refinamiento de grueso a fino y produce videos de alta fidelidad sin comprometer la calidad del razonamiento.

Evaluación y Resultados

Para llenar la brecha en las pruebas de generación de video impulsadas por razonamiento, introducimos VR-Bench, que evalúa la capacidad de un modelo para traducir la intención inferida en contenido de video coherente y alineado semánticamente. Experimentos extensivos demuestran que Lumos-Nexus logra ganancias sustanciales en realismo visual y coherencia temporal en VBench, mientras exhibe un rendimiento generativo basado en razonamiento fuerte en VR-Bench. Leyes de escala pueden ser aplicadas para mejorar el rendimiento del modelo.

Conclusión

Lumos-Nexus ofrece un enfoque innovador para la generación de video unificado, combinando la capacidad de razonamiento con alta fidelidad visual. Los resultados experimentales demuestran su eficacia en la generación de videos de alta calidad. El código y los modelos están disponibles en https://jiazheng-xing.github.io/nexus-lumos-home/.

Newsletter

Si llegaste hasta acá, sabés que esto vale la pena.

Un email por paper. Sin resúmenes semanales ni contenido de relleno.

También en Magacín