W2AVV++: sistema que combina el análisis de texto con descriptores visuales y auditivos profundos para la recuperación de videos sin etiquetar
Tesis

Publication date
2020Metadata
Show full item record
Cómo citar
Barrios Núñez, Juan
Cómo citar
W2AVV++: sistema que combina el análisis de texto con descriptores visuales y auditivos profundos para la recuperación de videos sin etiquetar
Author
Professor Advisor
Abstract
La cantidad de contenido multimedia que se genera en el mundo es cada día mayor. Herramientas como Google y YouTube facilitan la búsqueda de este tipo de datos, utilizando la metadata asociada a un video como por ejemplo su categoría y su título. Un caso de uso particular es cuando un usuario busca acciones u objetos sobre videos que no tienen metadata asociada. Por ejemplo, buscar en un disco duro con videos y recuperar los que tengan escenas de mujeres cantando. La mayoría de los sistemas que intentan resolver este problema se enfocan en el análisis del contenido visual de los videos ignorando el canal auditivo.
El objetivo general de este trabajo es implementar un sistema que permita la búsqueda por texto de videos sin etiquetar, utilizando un modelo de redes neuronales que combine descriptores visuales y auditivos. Se trabaja extendiendo el modelo W2VV++, que utiliza solo descriptores visuales, para agregar el componente auditivo.
La hipótesis de este trabajo es que el uso del audio es relevante en un sistema que resuelve el problema de la recuperación de videos sin etiquetar. Para esto se implementa un modelo base que no utiliza las pistas de audio de los videos y uno nuevo que sí las utiliza, para luego compararlos en base a ciertas métricas relevantes.
Se entrena un modelo de redes neuronales utilizando el dataset MSR-VTT, que contiene un conjunto de 200.000 pares video-descripción. Cada descripción de texto es vectorizada usando las técnicas Bag-of-Words, word2vec y una red GRU. Se obtienen descriptores visuales de cada video extrayendo sus cuadros y utilizando modelos pre entrenados de redes CNN. También se obtienen descriptores auditivos de las pistas de audio utilizando modelos pre entrenados. Se proponen dos esquemas de fusión: Early Fusion para unir los descriptores visuales y auditivos de un video en un único descriptor audiovisual; e Intermediate Fusion en donde se unen los descriptores visuales en un único descriptor visual y los descriptores auditivos en un único descriptor auditivo, y luego se fusionan ambos para generar un único descriptor audiovisual. Finalmente, se entrena una red neuronal que proyecta los descriptores de texto al espacio de descriptores audiovisuales.
Usando el conjunto de datos de prueba, ambos esquemas audiovisuales obtienen levemente mejores resultados que el modelo visual. Al realizar un experimento con 20 consultas donde se buscan conceptos audiovisuales, el esquema Early presenta una mejora de un 20\% de Precision@1 con respecto a W2VV++ y el esquema Intermediate presenta una mejora de un 12\% de Precision@10 con respecto a W2VV++. Se incluyen además los resultados de la participación con un modelo audiovisual propuesto en la conferencia TRECVID, en donde se obtuvieron valores de Mean infAP de 0,041 y 0,040 en dos entregas distintas. Cabe destacar que el modelo propuesto es el único entre todos los participantes en utilizar el audio.
General note
Tesis para optar al grado de Magíster en Ciencias, Mención Computación Memoria para optar al título de Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/177549
Collections
The following license files are associated with this item: