Show simple item record

Professor Advisordc.contributor.advisorBarrios Núñez, Juan
Authordc.contributor.authorHernández Puga, Rodrigo Andrés 
Associate professordc.contributor.otherHitschfeld Kahler, Nancy
Associate professordc.contributor.otherPoblete Labra, Bárbara
Associate professordc.contributor.otherGodoy del Campo, Julio
Admission datedc.date.accessioned2020-11-04T00:59:23Z
Available datedc.date.available2020-11-04T00:59:23Z
Publication datedc.date.issued2020
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/177549
General notedc.descriptionTesis para optar al grado de Magíster en Ciencias, Mención Computaciónes_ES
General notedc.descriptionMemoria para optar al título de Ingeniero Civil en Computación
Abstractdc.description.abstractLa cantidad de contenido multimedia que se genera en el mundo es cada día mayor. Herramientas como Google y YouTube facilitan la búsqueda de este tipo de datos, utilizando la metadata asociada a un video como por ejemplo su categoría y su título. Un caso de uso particular es cuando un usuario busca acciones u objetos sobre videos que no tienen metadata asociada. Por ejemplo, buscar en un disco duro con videos y recuperar los que tengan escenas de mujeres cantando. La mayoría de los sistemas que intentan resolver este problema se enfocan en el análisis del contenido visual de los videos ignorando el canal auditivo. El objetivo general de este trabajo es implementar un sistema que permita la búsqueda por texto de videos sin etiquetar, utilizando un modelo de redes neuronales que combine descriptores visuales y auditivos. Se trabaja extendiendo el modelo W2VV++, que utiliza solo descriptores visuales, para agregar el componente auditivo. La hipótesis de este trabajo es que el uso del audio es relevante en un sistema que resuelve el problema de la recuperación de videos sin etiquetar. Para esto se implementa un modelo base que no utiliza las pistas de audio de los videos y uno nuevo que sí las utiliza, para luego compararlos en base a ciertas métricas relevantes. Se entrena un modelo de redes neuronales utilizando el dataset MSR-VTT, que contiene un conjunto de 200.000 pares video-descripción. Cada descripción de texto es vectorizada usando las técnicas Bag-of-Words, word2vec y una red GRU. Se obtienen descriptores visuales de cada video extrayendo sus cuadros y utilizando modelos pre entrenados de redes CNN. También se obtienen descriptores auditivos de las pistas de audio utilizando modelos pre entrenados. Se proponen dos esquemas de fusión: Early Fusion para unir los descriptores visuales y auditivos de un video en un único descriptor audiovisual; e Intermediate Fusion en donde se unen los descriptores visuales en un único descriptor visual y los descriptores auditivos en un único descriptor auditivo, y luego se fusionan ambos para generar un único descriptor audiovisual. Finalmente, se entrena una red neuronal que proyecta los descriptores de texto al espacio de descriptores audiovisuales. Usando el conjunto de datos de prueba, ambos esquemas audiovisuales obtienen levemente mejores resultados que el modelo visual. Al realizar un experimento con 20 consultas donde se buscan conceptos audiovisuales, el esquema Early presenta una mejora de un 20\% de Precision@1 con respecto a W2VV++ y el esquema Intermediate presenta una mejora de un 12\% de Precision@10 con respecto a W2VV++. Se incluyen además los resultados de la participación con un modelo audiovisual propuesto en la conferencia TRECVID, en donde se obtuvieron valores de Mean infAP de 0,041 y 0,040 en dos entregas distintas. Cabe destacar que el modelo propuesto es el único entre todos los participantes en utilizar el audio.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectRecuperación de informaciónes_ES
Keywordsdc.subjectVideograbacioneses_ES
Keywordsdc.subjectRedes neuronales (Ciencia de la computación)es_ES
Keywordsdc.subjectAprendizaje profundoes_ES
Títulodc.titleW2AVV++: sistema que combina el análisis de texto con descriptores visuales y auditivos profundos para la recuperación de videos sin etiquetares_ES
Document typedc.typeTesis
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile