Video sentence matching using dense trajectories and infersent
Professor Advisor
dc.contributor.advisor
Bustos Cárdenas, Benjamín
Author
dc.contributor.author
Bravo Ramírez, Nicolás Antonio
Associate professor
dc.contributor.other
Baloian Tataryan, Nelson
Associate professor
dc.contributor.other
Barrios Núñez, Juan
Associate professor
dc.contributor.other
Huijse Heise, Pablo
Admission date
dc.date.accessioned
2021-08-30T14:33:53Z
Available date
dc.date.available
2021-08-30T14:33:53Z
Publication date
dc.date.issued
2021
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/181630
General note
dc.description
Tesis para optar al grado de Magíster en Ciencias, Mención Computación
es_ES
General note
dc.description
Memoria para optar al título de Ingeniero Civil en Computación
Abstract
dc.description.abstract
Debido a la gran cantidad de videos generados en Internet, surge la necesidad de codificar
automáticamente su contenido a texto para facilitar, por ejemplo, su búsqueda en indexadores
Web como Google o Bing. Debido a esta necesidad esta investigación propone mejorar un
modelo de aprendizaje automático especializado en una tarea que relaciona el contenido de un
video a una oración textual que lo describa. En este medimos la efectividad de un descriptor
de Trayectorias Densas y el modelo de InferSent en la tarea de TRECVID de relacionar video
a texto, seleccionando un modelo del estado del arte como base y experimentando múltiples
variaciones del mismo utilizando los descriptores mencionados.
La tarea de relacionar video a texto trata en encontrar las frases pre-generadas más ade-
cuadas que describan el contenido de un vídeo y ordenarlas según relevancia utilizando una
función de distancia. Los mejores modelos que resuelven esta tarea se basan en una combi-
nación de descriptores espaciales y temporales para vídeo y texto, para luego transformarlos
a un espacio vectorial en común, donde una función de distancia ordena los vectores de las
oraciones con respecto al vector del video objetivo.
Nuestra hipótesis plantea que los descriptores de Trayectorias Densas pueden codificar
la información temporal de un vídeo, obteniendo un mejor rendimiento que un modelo que
utiliza descriptores de información estática y redes recurrentes para extraer esta informa-
ción temporal. Para el modelo de InferSent, experimentamos si el uso de un codificador
de oraciones supera una combinación de codificadores de palabras que utiliza el modelo
base. También medimos el rendimiento en esta tarea de una arquitectura ResNeXt-101 pre-
entrenada en un conjunto de datos de clasificación de objetos diferente al del modelo base,
con el objetivo de determinar la importancia de la versión entrenada en Shufflenet que el
modelo base utiliza para lograr sus resultados del estado del arte.
Al comparar los resultados del modelo base con los nuestros, se concluye que que las
Trayectorias Densas tienen el potencial de describir la información temporal del video, aunque
las manera en como este trabajo las integra al modelo base es mejorable. Además se con-
cluye que el uso de InferSent en el modelo base seleccionado es innecesario, ya que este
último obtiene los mismos resultados y se comporta de la misma manera. Los resultados
también demuestran que añadir los descriptores de estudio como codificaciones adicionales al
del modelo base obtiene mejores resultados que los escenarios donde estos reemplazan los cod-
ificadores originales. También concluimos que el uso de una ResNeXt-101 pre-entrenada en
Shufflenet es un aspecto clave para lograr resultados del estado del arte, aunque es necesaria
más investigación para entender este comportamiento.
es_ES
Patrocinador
dc.description.sponsorship
ANID Programa Iniciativa Científica Milenio - Código ICN17_002