Video sentence matching using dense trajectories and infersent

Bravo Ramírez, Nicolás Antonio

Professor Advisor	dc.contributor.advisor	Bustos Cárdenas, Benjamín
Author	dc.contributor.author	Bravo Ramírez, Nicolás Antonio
Associate professor	dc.contributor.other	Baloian Tataryan, Nelson
Associate professor	dc.contributor.other	Barrios Núñez, Juan
Associate professor	dc.contributor.other	Huijse Heise, Pablo
Admission date	dc.date.accessioned	2021-08-30T14:33:53Z
Available date	dc.date.available	2021-08-30T14:33:53Z
Publication date	dc.date.issued	2021
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/181630
General note	dc.description	Tesis para optar al grado de Magíster en Ciencias, Mención Computación	es_ES
General note	dc.description	Memoria para optar al título de Ingeniero Civil en Computación
Abstract	dc.description.abstract	Debido a la gran cantidad de videos generados en Internet, surge la necesidad de codificar automáticamente su contenido a texto para facilitar, por ejemplo, su búsqueda en indexadores Web como Google o Bing. Debido a esta necesidad esta investigación propone mejorar un modelo de aprendizaje automático especializado en una tarea que relaciona el contenido de un video a una oración textual que lo describa. En este medimos la efectividad de un descriptor de Trayectorias Densas y el modelo de InferSent en la tarea de TRECVID de relacionar video a texto, seleccionando un modelo del estado del arte como base y experimentando múltiples variaciones del mismo utilizando los descriptores mencionados. La tarea de relacionar video a texto trata en encontrar las frases pre-generadas más ade- cuadas que describan el contenido de un vídeo y ordenarlas según relevancia utilizando una función de distancia. Los mejores modelos que resuelven esta tarea se basan en una combi- nación de descriptores espaciales y temporales para vídeo y texto, para luego transformarlos a un espacio vectorial en común, donde una función de distancia ordena los vectores de las oraciones con respecto al vector del video objetivo. Nuestra hipótesis plantea que los descriptores de Trayectorias Densas pueden codificar la información temporal de un vídeo, obteniendo un mejor rendimiento que un modelo que utiliza descriptores de información estática y redes recurrentes para extraer esta informa- ción temporal. Para el modelo de InferSent, experimentamos si el uso de un codificador de oraciones supera una combinación de codificadores de palabras que utiliza el modelo base. También medimos el rendimiento en esta tarea de una arquitectura ResNeXt-101 pre- entrenada en un conjunto de datos de clasificación de objetos diferente al del modelo base, con el objetivo de determinar la importancia de la versión entrenada en Shufflenet que el modelo base utiliza para lograr sus resultados del estado del arte. Al comparar los resultados del modelo base con los nuestros, se concluye que que las Trayectorias Densas tienen el potencial de describir la información temporal del video, aunque las manera en como este trabajo las integra al modelo base es mejorable. Además se con- cluye que el uso de InferSent en el modelo base seleccionado es innecesario, ya que este último obtiene los mismos resultados y se comporta de la misma manera. Los resultados también demuestran que añadir los descriptores de estudio como codificaciones adicionales al del modelo base obtiene mejores resultados que los escenarios donde estos reemplazan los cod- ificadores originales. También concluimos que el uso de una ResNeXt-101 pre-entrenada en Shufflenet es un aspecto clave para lograr resultados del estado del arte, aunque es necesaria más investigación para entender este comportamiento.	es_ES
Patrocinador	dc.description.sponsorship	ANID Programa Iniciativa Científica Milenio - Código ICN17_002	es_ES
Lenguage	dc.language.iso	en	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/	*
Keywords	dc.subject	Recuperación de información
Keywords	dc.subject	Visión artificial
Keywords	dc.subject	Aprendizaje profundo
Keywords	dc.subject	Aprendizaje automático
Título	dc.title	Video sentence matching using dense trajectories and infersent	es_ES
Document type	dc.type	Tesis
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES

Files in this item

Name:: Video-sentence-matching-using- ...
Size:: 21.68Mb
Format:: PDF

Name:: TablaConten.pdf
Size:: 126.6Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile