Lumos-Nexus: Puenteo Eficiente de Frecuencia con Espacio Latente Homogéneo para Modelos Unificados de Video (2023)

1 de dic de 2023•2 min de lectura•visitas

Abstract

Los modelos unificados de video basados en conectores han demostrado una gran capacidad en la síntesis de video basada en instrucciones, pero la integración de un generador de alta fidelidad grande en el bucle de entrenamiento unificado es computacionalmente prohibitiva, lo que limita la calidad visual alcanzable.

Propuesta de Lumos-Nexus

Por lo tanto, proponemos Lumos-Nexus, un marco de generación de video unificado eficiente en entrenamiento que facilita el desarrollo de capacidades de generación impulsadas por razonamiento fuertes mientras mejora significativamente la fidelidad visual. Lumos-Nexus adopta un diseño de dos etapas: 1) Durante el entrenamiento, solo un generador ligero se alinea con el bloque de comprensión para aprender a recibir control semántico impulsado por razonamiento. Transformadores pueden ser utilizados para mejorar la comprensión del lenguaje en este bloque.

Arquitectura de Lumos-Nexus

2) Durante la inferencia, introducimos el Puenteo de Frecuencia Progresivo Unificado (UPFB) para progresivamente entregar la generación a un generador preentrenado de alta capacidad en el espacio latente compartido, lo que permite un refinamiento de grueso a fino y produce videos de alta fidelidad sin comprometer la calidad del razonamiento.

Evaluación y Resultados

Para llenar la brecha en las pruebas de generación de video impulsadas por razonamiento, introducimos VR-Bench, que evalúa la capacidad de un modelo para traducir la intención inferida en contenido de video coherente y alineado semánticamente. Experimentos extensivos demuestran que Lumos-Nexus logra ganancias sustanciales en realismo visual y coherencia temporal en VBench, mientras exhibe un rendimiento generativo basado en razonamiento fuerte en VR-Bench. Leyes de escala pueden ser aplicadas para mejorar el rendimiento del modelo.

Conclusión

Lumos-Nexus ofrece un enfoque innovador para la generación de video unificado, combinando la capacidad de razonamiento con alta fidelidad visual. Los resultados experimentales demuestran su eficacia en la generación de videos de alta calidad. El código y los modelos están disponibles en https://jiazheng-xing.github.io/nexus-lumos-home/.

Paper original: http://arxiv.org/abs/2605.31603v1

Newsletter

Subscribite al Newsletter

Un email semanal con un resumen de los últimos artículos.

También en Magacín

sistemas · industria-4.0 · manufactura

Una arquitectura de sistemas ciberfísicos para sistemas de fabricación basados en Industria 4.0 — Lee, Bagheri y Kao (2015)

Traducción al español del paper seminal sobre sistemas ciberfísicos e Industria 4.0 (Lee, Bagheri & Kao, 2015). Define la arquitectura de 5 niveles (5C) para implementar CPS en manufactura inteligente. El texto fundacional de Industry 4.0 en español.

Leer→

sistemas · distribuidos · Google

El sistema de archivos de Google — Ghemawat, Gobioff & Leung (2003)

Traducción al español de 'The Google File System' (Ghemawat, Gobioff & Leung, 2003). El sistema de archivos distribuido que hizo posible indexar internet. Diseñado para fallar: asume que los discos se rompen y sigue funcionando igual.

Leer→

sistemas · bases de datos · Amazon

Dynamo: El almacén de clave-valor altamente disponible de Amazon — DeCandia et al. (2007)

Traducción al español de 'Dynamo: Amazon's Highly Available Key-value Store' (DeCandia et al., 2007). El paper que inspiró toda una generación de bases de datos NoSQL. Cómo Amazon sacrificó consistencia por disponibilidad y cambió la industria.

Leer→