Lumos-Nexus: Puenteo Eficiente de Frecuencia con Espacio Latente Homogéneo para Modelos Unificados de Video (2023)
Abstract
Los modelos unificados de video basados en conectores han demostrado una gran capacidad en la síntesis de video basada en instrucciones, pero la integración de un generador de alta fidelidad grande en el bucle de entrenamiento unificado es computacionalmente prohibitiva, lo que limita la calidad visual alcanzable.Propuesta de Lumos-Nexus
Por lo tanto, proponemos Lumos-Nexus, un marco de generación de video unificado eficiente en entrenamiento que facilita el desarrollo de capacidades de generación impulsadas por razonamiento fuertes mientras mejora significativamente la fidelidad visual. Lumos-Nexus adopta un diseño de dos etapas: 1) Durante el entrenamiento, solo un generador ligero se alinea con el bloque de comprensión para aprender a recibir control semántico impulsado por razonamiento. Transformadores pueden ser utilizados para mejorar la comprensión del lenguaje en este bloque.
Arquitectura de Lumos-Nexus
2) Durante la inferencia, introducimos el Puenteo de Frecuencia Progresivo Unificado (UPFB) para progresivamente entregar la generación a un generador preentrenado de alta capacidad en el espacio latente compartido, lo que permite un refinamiento de grueso a fino y produce videos de alta fidelidad sin comprometer la calidad del razonamiento.Evaluación y Resultados
Para llenar la brecha en las pruebas de generación de video impulsadas por razonamiento, introducimos VR-Bench, que evalúa la capacidad de un modelo para traducir la intención inferida en contenido de video coherente y alineado semánticamente. Experimentos extensivos demuestran que Lumos-Nexus logra ganancias sustanciales en realismo visual y coherencia temporal en VBench, mientras exhibe un rendimiento generativo basado en razonamiento fuerte en VR-Bench. Leyes de escala pueden ser aplicadas para mejorar el rendimiento del modelo.
Conclusión
Lumos-Nexus ofrece un enfoque innovador para la generación de video unificado, combinando la capacidad de razonamiento con alta fidelidad visual. Los resultados experimentales demuestran su eficacia en la generación de videos de alta calidad. El código y los modelos están disponibles en https://jiazheng-xing.github.io/nexus-lumos-home/.
Paper original: http://arxiv.org/abs/2605.31603v1
Newsletter
Si llegaste hasta acá, sabés que esto vale la pena.
Un email por paper. Sin resúmenes semanales ni contenido de relleno.
También en Magacín
El sistema de archivos de Google — Ghemawat, Gobioff & Leung (2003)
El sistema de archivos que hizo posible indexar internet. Diseñado para fallar: asume que los discos se rompen y sigue funcionando.
Dynamo: El almacén de clave-valor altamente disponible de Amazon — DeCandia et al. (2007)
El paper que inspiró toda una generación de bases de datos NoSQL. Cómo Amazon sacrificó consistencia por disponibilidad y cambió la industria.
En busca de un algoritmo de consenso comprensible — Ongaro & Ousterhout (2014)
Raft: el algoritmo de consenso diseñado para ser entendido. Una alternativa a Paxos que se convirtió en el estándar de facto para sistemas distribuidos modernos.