3/12/25

Paper2Video

 


Crear un video explicativo de un artículo científico no es tarea fácil. Al menos, no es tarea que pueda hacerse en poco tiempo. Aplicaciones que permitan simplificar y mejorar este trabajo son cada vez más necesarias.

En un reciente artículo titulado Paper2Video: Automatic Generation from Scientific Papers, presentado por Zeyu Zhu, Kevin Qinghong Lin y Mike Zheng Shou del Show Lab, National University of Singapore se muestra un reciente desarrollo que puede descargarse de Github.

El trabajo aborda un problema crítico en la comunicación científica: la generación automática de vídeos de presentación académica a partir de artículos de investigación. Los vídeos de presentación académica se han convertido en un medio esencial para la difusión científica, siendo requeridos por muchas conferencias como material obligatorio de envío. Sin embargo, crear estos vídeos manualmente es extremadamente laborioso, requiriendo diseño de diapositivas, redacción de subtítulos, grabación por diapositiva y proceder a una dedición cuidadosa. Como media, el producir un vídeo de 2 a 10 minutos puede tomar 5 a 6 horas de trabajo.  

A diferencia de la generación de vídeo de ficción, los vídeos de presentación tienen características distintivas que incluyen integración multisensorial, la necesidad de mostrar múltiples figuras y una alta densidad de texto en la que casi todo es relevante y no puede ser eliminado. 

Los desafíos específicos a la hora de crear un video de este tipo incluyen: (a) "comprender" artículos de contexto largo con texto denso, así como crear múltiples figuras y tablas; (b) requerir la coordinación de múltiples canales alineados, incluyendo la generación de diapositivas, subtítulos, texto-a-voz, control del cursor y generación de avatares; (c) carencia de métricas de evaluación bien definidas sobre qué constituye un buen vídeo de presentación, particularmente en términos de transmisión de conocimiento y accesibilidad para la audiencia. 

Para permitir una evaluación correcta, los autores presentan el benchmark Paper2Video, compuesto por 101 artículos de investigación emparejados con vídeos de presentación grabados por los autores, junto con las diapositivas originales y metadatos de identidad del presentador. Los datos provienen de conferencias recientes de inteligencia artificial: 41 de aprendizaje automático (NeurIPS, ICLR, ICML), 40 de visión por computador (CVPR, ICCV, ECCV) y 20 de procesamiento de lenguaje natural (ACL, EMNLP, NAACL).

Las estadísticas muestran que los artículos contienen en promedio 13,300 palabras, 44.7 figuras y 28.7 páginas. Las presentaciones contienen un promedio de 16 diapositivas y duran 6 minutos 15 segundos, con algunos ejemplos alcanzando hasta 14 minutos. Esta diversidad proporciona un valioso conjunto de datos para evaluar la generación automática.  Los autores proponen cuatro métricas específicamente diseñadas para evaluar vídeos de presentación académica desde dos perspectivas complementarias: para la audiencia (transmisión fiel de ideas) y para el autor (visibilidad e impacto):

Meta Similarity: Evalúa la alineación de diapositivas, subtítulos y voz generados con los creados por humanos, utilizando modelos de visión-lenguaje (VLM) y embeddings de voz.

PresentArena: Emplea VideoLLMs como audiencia proxy para realizar comparaciones pareadas entre vídeos generados y hechos por humanos, con doble orden para reducir sesgos.

PresentQuiz: Mide qué tan bien el vídeo transmite el conocimiento del artículo mediante un cuestionario de opción múltiple que los VideoLLMs deben responder después de ver la presentación.

IP Memory: Evalúa cómo el vídeo ayuda a la audiencia a recordar al autor y su trabajo, simulando interacciones reales de conferencias.

El sistema PaperTalker

PaperTalker es el primer framework multi-agente para generación automática de vídeos de presentación académica. Se compone de cuatro módulos principales:

1. Slide Builder (Constructor de Diapositivas)

En lugar de usar formatos comunes como PowerPoint o XML, los autores emplean código LaTeX Beamer por tres razones: (i) LaTeX organiza automáticamente texto y figuras desde sus parámetros sin planificar posiciones explícitamente; (ii) Beamer es compacto y expresivo, representando el mismo contenido en menos líneas; (iii) proporciona estilos formales bien diseñados apropiados para presentaciones académicas.

El proceso incluye generación de código borrador, compilación para recoger diagnósticos de errores, y reparación iterativa. Una innovación clave es el Tree Search Visual Choice, un método novedoso para ajustar layouts finamente. Como los LLMs son insensibles a ajustes numéricos finos, este enfoque explora sistemáticamente variaciones de parámetros para generar múltiples ramas (por ejemplo, diferentes escalas de figuras: 1.25, 0.75, 0.5, 0.25), las concatena en una sola imagen, y luego usa un VLM para seleccionar la rama óptima. Este método desacopla la búsqueda discreta de layout del razonamiento semántico y resuelve confiablemente casos de desbordamiento.

2. Subtitle Builder (Constructor de Subtítulos)

Las diapositivas generadas se rasterizan en imágenes y se pasan a un VLM que produce subtítulos a nivel de oración y prompts de enfoque visual correspondientes. Estos prompts sirven como representación intermedia que vincula el habla con el cursor, permitiendo alineación temporal y espacial precisa.

3. Talker Builder (Constructor del Presentador)

Dado el retrato del autor y una muestra de voz, este módulo sintetiza un vídeo de presentador que entrega el contenido con la voz del autor y preservación fiel de identidad. Utilizan F5-TTS para síntesis de voz personalizada y modelos como Hallo2 o FantasyTalking para generación de cabezas parlantes.

Una innovación importante es la generación paralela por diapositivas. Inspirados en la práctica humana de grabar diapositiva por diapositiva y la independencia entre cada diapositiva, sintetizan el vídeo del presentador por separado para cada diapositiva y ejecutan estos trabajos en paralelo, reduciendo marcadamente el tiempo de generación en más de 6 veces.

4. Cursor Builder (Constructor del Cursor)

Para lograr alineación espacial-temporal del cursor, el sistema genera prompts para cada oración basados en las diapositivas. La ubicación espacial se determina usando modelos de uso de computadora (como UI-TARS) que pueden simular interacción del usuario con capturas de pantalla. La alineación temporal se logra con WhisperX, que extrae datos a nivel de palabra y los alinea con las oraciones correspondientes en los subtítulos.

Resultados experimentales

Los experimentos en Paper2Video demuestran la efectividad de PaperTalker. El sistema supera a las presentaciones hechas por humanos en un 10% en precisión de PresentQuiz y logra calificaciones comparables en estudios de usuarios, indicando que su calidad se aproxima al contenido creado por humanos. En evaluaciones humanas con escala de 1 a 5, los vídeos hechos por humanos obtienen 4.6, mientras que PaperTalker logra 3.8, superando significativamente otros métodos como Veo3 (2.2) y PresentAgent (2.8). 

Este trabajo representa un avance significativo hacia la automatización de la comunicación académica, liberando a los investigadores de tareas laboriosas de preparación de vídeos mientras mantiene alta calidad y fidelidad al contenido original. 



0 comentarios :