An empirical study of the effect of video encoders on temporal video grounding

Meza de la Jara, Ignacio Alejandro

Professor Advisor	dc.contributor.advisor	Bravo Márquez, Felipe
Author	dc.contributor.author	Meza de la Jara, Ignacio Alejandro
Associate professor	dc.contributor.other	Bustos Cárdenas, Benjamín
Associate professor	dc.contributor.other	Abeliuk Kimelman, Andrés
Associate professor	dc.contributor.other	Reutter De La Maza, Juan
Admission date	dc.date.accessioned	2024-08-14T17:45:33Z
Available date	dc.date.available	2024-08-14T17:45:33Z
Publication date	dc.date.issued	2024
Identifier	dc.identifier.other	10.58011/3ecb-ek45
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/200252
Abstract	dc.description.abstract	El n´ucleo de computer vision (CV) reside en la comprensi´on e interpretaci´on de v´ıdeos largos e in´editos, una tarea dificultada por el esfuerzo manual necesario para analizar la ingente cantidad de contenidos de v´ıdeo que se generan diariamente. La tarea de Temporal Video Grounding (TVG) se perfila como una soluci´on clave en este ´ambito, con el objetivo de desarrollar modelos que identifiquen y marquen los l´ımites temporales de las acciones en los v´ıdeos mediante el lenguaje natural. El campo ha evolucionado significativamente, pasando de modelos basados en sugerencias a t´ecnicas avanzadas que utilizan modelos basados en transformadores, mejorando notablemente la precisi´on y la eficiencia. A pesar de estos avances, sigue habiendo una brecha en la exploraci´on de la representaci´on de v´ıdeos en la TVG. La dependencia de caracter´ısticas espec´ıficas de los modelos de clasificaci´on tradicionales puede conducir a un ajuste excesivo y a una generalizaci´on limitada. Para abordar esta cuesti´on, esta tesis propone un estudio emp´ırico detallado en el que se analizan diferentes representaciones de v´ıdeo en conjuntos de datos de referencia como CharadesSTA, ActivityNet Captions y YouCookII. Se desarrolla un marco exhaustivo para aislar el efecto de las distintas representaciones de v´ıdeo, utilizando un conjunto diverso de m´as de 10 tipos de modelos preentrenados, centrados en clasificadores de acci´on basados en CNN y transformadores. Los resultados de este estudio son reveladores. Demuestran que la optimizaci´on de la selecci´on de estas representaciones de v´ıdeo puede mejorar significativamente el rendimiento del modelo, lo que se logra preservando las estructuras del modelo y modificando al mismo tiempo el codificador de v´ıdeo. Los resultados tambi´en indican complementariedad entre las representaciones de v´ıdeo, sugiriendo que explotar esta complementariedad podr´ıa abrir nuevas v´ıas de investigaci´on y perfeccionamiento en TVG. El estudio tambi´en revela diferencias significativas en el rendimiento del modelo con solo cambiar el codificador de v´ıdeo. Descubre patrones y errores claros derivados del uso de determinadas caracter´ısticas, lo que indica una posible complementariedad entre ellas. Esto sugiere que una selecci´on cuidadosa de caracter´ısticas puede conducir a modelos m´as robustos y generalizables en TVG. En conclusi´on, este trabajo subraya la relevancia de las representaciones de v´ıdeo en las tareas de TVG. Aporta al campo de CV proveyendo un framework para la extracci´on de representaciones de v´ıdeos, as´ı como ideas y m´etodos fundamentales que podr´ıan orientar el desarrollo de modelos multimodales m´as robustos en TVG.	es_ES
Abstract	dc.description.abstract	The core of computer vision (CV) lies in the understanding and interpretation of long and unprecedented videos, a task made difficult by the manual effort required to analyze the vast amount of video content generated daily. The task of Temporal Video Grounding (TVG) is emerging as a key solution in this field, aiming to develop models that identify and mark the temporal boundaries of actions in videos using natural language. The field has evolved significantly, moving from models based on suggestions to advanced techniques using transformer-based models, notably improving accuracy and efficiency. Despite these advances, there remains a gap in exploring video representation in TVG. The reliance on specific features of traditional classification models can lead to overfitting and limited generalization. To address this issue, this thesis proposes a detailed empirical study analyzing different video representations in benchmark datasets such as Charades-STA, ActivityNet Captions, and YouCookII. An exhaustive framework is developed to isolate the effect of different video representations, using a diverse set of more than 10 types of pretrained models, focusing on CNN and transformer-based action classifiers. The results of this study are revealing. They demonstrate that optimizing the selection of these video representations can significantly improve model performance, achieved by preserving the model structures and modifying the video encoder simultaneously. The results also indicate complementarity among video representations, suggesting that exploiting this complementarity could open new avenues for research and refinement in TVG. The study also reveals significant differences in model performance with just a change in the video encoder. It uncovers clear patterns and errors derived from the use of certain features, indicating possible complementarity among them. This suggests that a careful selection of features can lead to more robust and generalizable models in TVG. In conclusion, this work underscores the importance of video representations in TVG tasks. It contributes to the field of CV by providing a framework for the extraction of video representations, as well as fundamental ideas and methods that could guide the development of more robust multimodal models in TVG.	es_ES
Lenguage	dc.language.iso	en	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	An empirical study of the effect of video encoders on temporal video grounding	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	chb	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil en Computación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Ciencias de la Computación	es_ES

Files in this item

Name:: An-empirical-study-of-the-effe ...
Size:: 10.79Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States