Catalogación automática de videos por entrenamiento de modelo multimodal auto-supervisado para medio televisivos
Professor Advisor
dc.contributor.advisor
Saavedra Rondo, José
Author
dc.contributor.author
Avendaño Lagos, Benjamín Alonso
Associate professor
dc.contributor.other
Inostroza Fajardin, Patricio
Associate professor
dc.contributor.other
Abeliuk Kimelman, Andrés
Admission date
dc.date.accessioned
2024-10-01T16:18:01Z
Available date
dc.date.available
2024-10-01T16:18:01Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/201267
Abstract
dc.description.abstract
Este estudio se enfoca en la catalogación de videos en el contexto de los medios de comunicación, abordando un desafío fundamental en la gestión de contenido audiovisual. Comienza destacando la complejidad de catalogar manualmente grandes volúmenes de videos en un entorno mediático. Se subraya la importancia de adoptar enfoques de aprendizaje automático para mejorar la eficiencia y la precisión de este proceso.
Se exploran modelos de representación de videos, incluidos aquellos basados en CNN y Transformers, resaltando su capacidad para capturar características visuales y relaciones temporales en los videos. Se discuten modelos específicos como TimeSformer, Video Swin Transformer y VideoMAE, que han demostrado su efectividad en la extracción de características de videos.
El estudio profundiza en las metodologías desarrolladas para la catalogación de videos en medios de comunicación, abordando desafíos como la alta entropía de los datos y la falta de etiquetas precisas. Se presentan enfoques para la creación de clases y etiquetas a partir de la metadata de los videos, así como la utilización de modelos NER para procesar entidades en el texto.
Se realiza una evaluación exhaustiva de modelos de representación en diversos conjuntos de datos públicos y en el contexto del canal de televisión. Se utiliza el ARI para medir la calidad de las representaciones de videos y se identifican áreas de mejora. Se destacan las mejoras realizadas en la creación de clases y etiquetas, lo que conduce a un aumento significativo en el rendimiento de los modelos, con TimeSformer como el modelo más efectivo.
La discusión se centra en la importancia de elegir adecuadamente las clases y etiquetas y se sugieren direcciones futuras, como el análisis más profundo de los datos y la exploración de modelos multimodales.
En conclusión, este estudio ofrece una visión completa de la catalogación de videos en medios de comunicación, enfatizando la relevancia de los modelos de representación, la creación de clases y etiquetas, y la evaluación en contextos del mundo real. Reconoce limitaciones como el costo computacional y sugiere futuras investigaciones para mejorar aún más este proceso fundamental en la gestión de contenido audiovisual.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States