Catalogación automática de videos por entrenamiento de modelo multimodal auto-supervisado para medio televisivos

Este estudio se enfoca en la catalogación de videos en el contexto de los medios de comunicación, abordando un desafío fundamental en la gestión de contenido audiovisual. Comienza destacando la complejidad de catalogar manualmente grandes volúmenes de videos en un entorno mediático. Se subraya la importancia de adoptar enfoques de aprendizaje automático para mejorar la eficiencia y la precisión de este proceso. Se exploran modelos de representación de videos, incluidos aquellos basados en CNN y Transformers, resaltando su capacidad para capturar características visuales y relaciones temporales en los videos. Se discuten modelos específicos como TimeSformer, Video Swin Transformer y VideoMAE, que han demostrado su efectividad en la extracción de características de videos. El estudio profundiza en las metodologías desarrolladas para la catalogación de videos en medios de comunicación, abordando desafíos como la alta entropía de los datos y la falta de etiquetas precisas. Se presentan enfoques para la creación de clases y etiquetas a partir de la metadata de los videos, así como la utilización de modelos NER para procesar entidades en el texto. Se realiza una evaluación exhaustiva de modelos de representación en diversos conjuntos de datos públicos y en el contexto del canal de televisión. Se utiliza el ARI para medir la calidad de las representaciones de videos y se identifican áreas de mejora. Se destacan las mejoras realizadas en la creación de clases y etiquetas, lo que conduce a un aumento significativo en el rendimiento de los modelos, con TimeSformer como el modelo más efectivo. La discusión se centra en la importancia de elegir adecuadamente las clases y etiquetas y se sugieren direcciones futuras, como el análisis más profundo de los datos y la exploración de modelos multimodales. En conclusión, este estudio ofrece una visión completa de la catalogación de videos en medios de comunicación, enfatizando la relevancia de los modelos de representación, la creación de clases y etiquetas, y la evaluación en contextos del mundo real. Reconoce limitaciones como el costo computacional y sugiere futuras investigaciones para mejorar aún más este proceso fundamental en la gestión de contenido audiovisual.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Memoria para optar al título de Ingeniero Civil en Computación

Identifier

URI: https://repositorio.uchile.cl/handle/2250/201267
DOI: 10.58011/5xns-qz15

Collections