Show simple item record

Professor Guidedc.contributor.advisorBustos Cárdenas, Benjamín
Authordc.contributor.authorBravo Ramírez, Nicolás Antonio 
Associate professordc.contributor.otherBaloian Tataryan, Nelson
Associate professordc.contributor.otherBarrios Núñez, Juan
Associate professordc.contributor.otherHuijse Heise, Pablo
Admission datedc.date.accessioned2021-08-30T14:33:53Z
Available datedc.date.available2021-08-30T14:33:53Z
Publication datedc.date.issued2021
Identifierdc.identifier.urihttp://repositorio.uchile.cl/handle/2250/181630
General notedc.descriptionTesis para optar al grado de Magíster en Ciencias, Mención Computaciónes_ES
General notedc.descriptionMemoria para optar al título de Ingeniero Civil en Computación
Abstractdc.description.abstractDebido a la gran cantidad de videos generados en Internet, surge la necesidad de codificar automáticamente su contenido a texto para facilitar, por ejemplo, su búsqueda en indexadores Web como Google o Bing. Debido a esta necesidad esta investigación propone mejorar un modelo de aprendizaje automático especializado en una tarea que relaciona el contenido de un video a una oración textual que lo describa. En este medimos la efectividad de un descriptor de Trayectorias Densas y el modelo de InferSent en la tarea de TRECVID de relacionar video a texto, seleccionando un modelo del estado del arte como base y experimentando múltiples variaciones del mismo utilizando los descriptores mencionados. La tarea de relacionar video a texto trata en encontrar las frases pre-generadas más ade- cuadas que describan el contenido de un vídeo y ordenarlas según relevancia utilizando una función de distancia. Los mejores modelos que resuelven esta tarea se basan en una combi- nación de descriptores espaciales y temporales para vídeo y texto, para luego transformarlos a un espacio vectorial en común, donde una función de distancia ordena los vectores de las oraciones con respecto al vector del video objetivo. Nuestra hipótesis plantea que los descriptores de Trayectorias Densas pueden codificar la información temporal de un vídeo, obteniendo un mejor rendimiento que un modelo que utiliza descriptores de información estática y redes recurrentes para extraer esta informa- ción temporal. Para el modelo de InferSent, experimentamos si el uso de un codificador de oraciones supera una combinación de codificadores de palabras que utiliza el modelo base. También medimos el rendimiento en esta tarea de una arquitectura ResNeXt-101 pre- entrenada en un conjunto de datos de clasificación de objetos diferente al del modelo base, con el objetivo de determinar la importancia de la versión entrenada en Shufflenet que el modelo base utiliza para lograr sus resultados del estado del arte. Al comparar los resultados del modelo base con los nuestros, se concluye que que las Trayectorias Densas tienen el potencial de describir la información temporal del video, aunque las manera en como este trabajo las integra al modelo base es mejorable. Además se con- cluye que el uso de InferSent en el modelo base seleccionado es innecesario, ya que este último obtiene los mismos resultados y se comporta de la misma manera. Los resultados también demuestran que añadir los descriptores de estudio como codificaciones adicionales al del modelo base obtiene mejores resultados que los escenarios donde estos reemplazan los cod- ificadores originales. También concluimos que el uso de una ResNeXt-101 pre-entrenada en Shufflenet es un aspecto clave para lograr resultados del estado del arte, aunque es necesaria más investigación para entender este comportamiento.es_ES
Patrocinadordc.description.sponsorshipANID Programa Iniciativa Científica Milenio - Código ICN17_002es_ES
Lenguagedc.language.isoenes_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectRecuperación de información
Keywordsdc.subjectVisión artificial
Keywordsdc.subjectAprendizaje profundo
Keywordsdc.subjectAprendizaje automático
Títulodc.titleVideo sentence matching using dense trajectories and infersentes_ES
Document typedc.typeTesises_ES
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile