W2AVV++: sistema que combina el análisis de texto con descriptores visuales y auditivos profundos para la recuperación de videos sin etiquetar

Hernández Puga, Rodrigo Andrés

Professor Advisor	dc.contributor.advisor	Barrios Núñez, Juan
Author	dc.contributor.author	Hernández Puga, Rodrigo Andrés
Associate professor	dc.contributor.other	Hitschfeld Kahler, Nancy
Associate professor	dc.contributor.other	Poblete Labra, Bárbara
Associate professor	dc.contributor.other	Godoy del Campo, Julio
Admission date	dc.date.accessioned	2020-11-04T00:59:23Z
Available date	dc.date.available	2020-11-04T00:59:23Z
Publication date	dc.date.issued	2020
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/177549
General note	dc.description	Tesis para optar al grado de Magíster en Ciencias, Mención Computación	es_ES
General note	dc.description	Memoria para optar al título de Ingeniero Civil en Computación
Abstract	dc.description.abstract	La cantidad de contenido multimedia que se genera en el mundo es cada día mayor. Herramientas como Google y YouTube facilitan la búsqueda de este tipo de datos, utilizando la metadata asociada a un video como por ejemplo su categoría y su título. Un caso de uso particular es cuando un usuario busca acciones u objetos sobre videos que no tienen metadata asociada. Por ejemplo, buscar en un disco duro con videos y recuperar los que tengan escenas de mujeres cantando. La mayoría de los sistemas que intentan resolver este problema se enfocan en el análisis del contenido visual de los videos ignorando el canal auditivo. El objetivo general de este trabajo es implementar un sistema que permita la búsqueda por texto de videos sin etiquetar, utilizando un modelo de redes neuronales que combine descriptores visuales y auditivos. Se trabaja extendiendo el modelo W2VV++, que utiliza solo descriptores visuales, para agregar el componente auditivo. La hipótesis de este trabajo es que el uso del audio es relevante en un sistema que resuelve el problema de la recuperación de videos sin etiquetar. Para esto se implementa un modelo base que no utiliza las pistas de audio de los videos y uno nuevo que sí las utiliza, para luego compararlos en base a ciertas métricas relevantes. Se entrena un modelo de redes neuronales utilizando el dataset MSR-VTT, que contiene un conjunto de 200.000 pares video-descripción. Cada descripción de texto es vectorizada usando las técnicas Bag-of-Words, word2vec y una red GRU. Se obtienen descriptores visuales de cada video extrayendo sus cuadros y utilizando modelos pre entrenados de redes CNN. También se obtienen descriptores auditivos de las pistas de audio utilizando modelos pre entrenados. Se proponen dos esquemas de fusión: Early Fusion para unir los descriptores visuales y auditivos de un video en un único descriptor audiovisual; e Intermediate Fusion en donde se unen los descriptores visuales en un único descriptor visual y los descriptores auditivos en un único descriptor auditivo, y luego se fusionan ambos para generar un único descriptor audiovisual. Finalmente, se entrena una red neuronal que proyecta los descriptores de texto al espacio de descriptores audiovisuales. Usando el conjunto de datos de prueba, ambos esquemas audiovisuales obtienen levemente mejores resultados que el modelo visual. Al realizar un experimento con 20 consultas donde se buscan conceptos audiovisuales, el esquema Early presenta una mejora de un 20\% de Precision@1 con respecto a W2VV++ y el esquema Intermediate presenta una mejora de un 12\% de Precision@10 con respecto a W2VV++. Se incluyen además los resultados de la participación con un modelo audiovisual propuesto en la conferencia TRECVID, en donde se obtuvieron valores de Mean infAP de 0,041 y 0,040 en dos entregas distintas. Cabe destacar que el modelo propuesto es el único entre todos los participantes en utilizar el audio.	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/	*
Keywords	dc.subject	Recuperación de información	es_ES
Keywords	dc.subject	Videograbaciones	es_ES
Keywords	dc.subject	Redes neuronales (Ciencia de la computación)	es_ES
Keywords	dc.subject	Aprendizaje profundo	es_ES
Título	dc.title	W2AVV++: sistema que combina el análisis de texto con descriptores visuales y auditivos profundos para la recuperación de videos sin etiquetar	es_ES
Document type	dc.type	Tesis
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES

Files in this item

Name:: W2AA++-sistema-que-combina-el- ...
Size:: 44.65Mb
Format:: PDF

Name:: TablaConten.pdf
Size:: 83.12Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile