An empirical study of the effect of video encoders on temporal video grounding
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Bravo Márquez, Felipe
Cómo citar
An empirical study of the effect of video encoders on temporal video grounding
Professor Advisor
Abstract
El n´ucleo de computer vision (CV) reside en la comprensi´on e interpretaci´on de v´ıdeos largos
e in´editos, una tarea dificultada por el esfuerzo manual necesario para analizar la ingente
cantidad de contenidos de v´ıdeo que se generan diariamente. La tarea de Temporal Video
Grounding (TVG) se perfila como una soluci´on clave en este ´ambito, con el objetivo de
desarrollar modelos que identifiquen y marquen los l´ımites temporales de las acciones en los
v´ıdeos mediante el lenguaje natural. El campo ha evolucionado significativamente, pasando
de modelos basados en sugerencias a t´ecnicas avanzadas que utilizan modelos basados en
transformadores, mejorando notablemente la precisi´on y la eficiencia.
A pesar de estos avances, sigue habiendo una brecha en la exploraci´on de la representaci´on
de v´ıdeos en la TVG. La dependencia de caracter´ısticas espec´ıficas de los modelos de clasificaci´on tradicionales puede conducir a un ajuste excesivo y a una generalizaci´on limitada. Para
abordar esta cuesti´on, esta tesis propone un estudio emp´ırico detallado en el que se analizan
diferentes representaciones de v´ıdeo en conjuntos de datos de referencia como CharadesSTA, ActivityNet Captions y YouCookII. Se desarrolla un marco exhaustivo para aislar el
efecto de las distintas representaciones de v´ıdeo, utilizando un conjunto diverso de m´as de
10 tipos de modelos preentrenados, centrados en clasificadores de acci´on basados en CNN y
transformadores.
Los resultados de este estudio son reveladores. Demuestran que la optimizaci´on de la
selecci´on de estas representaciones de v´ıdeo puede mejorar significativamente el rendimiento
del modelo, lo que se logra preservando las estructuras del modelo y modificando al mismo
tiempo el codificador de v´ıdeo. Los resultados tambi´en indican complementariedad entre
las representaciones de v´ıdeo, sugiriendo que explotar esta complementariedad podr´ıa abrir
nuevas v´ıas de investigaci´on y perfeccionamiento en TVG.
El estudio tambi´en revela diferencias significativas en el rendimiento del modelo con solo
cambiar el codificador de v´ıdeo. Descubre patrones y errores claros derivados del uso de
determinadas caracter´ısticas, lo que indica una posible complementariedad entre ellas. Esto
sugiere que una selecci´on cuidadosa de caracter´ısticas puede conducir a modelos m´as robustos
y generalizables en TVG.
En conclusi´on, este trabajo subraya la relevancia de las representaciones de v´ıdeo en las
tareas de TVG. Aporta al campo de CV proveyendo un framework para la extracci´on de
representaciones de v´ıdeos, as´ı como ideas y m´etodos fundamentales que podr´ıan orientar el
desarrollo de modelos multimodales m´as robustos en TVG. The core of computer vision (CV) lies in the understanding and interpretation of long and
unprecedented videos, a task made difficult by the manual effort required to analyze the
vast amount of video content generated daily. The task of Temporal Video Grounding
(TVG) is emerging as a key solution in this field, aiming to develop models that identify
and mark the temporal boundaries of actions in videos using natural language. The field has
evolved significantly, moving from models based on suggestions to advanced techniques using
transformer-based models, notably improving accuracy and efficiency.
Despite these advances, there remains a gap in exploring video representation in TVG.
The reliance on specific features of traditional classification models can lead to overfitting
and limited generalization. To address this issue, this thesis proposes a detailed empirical
study analyzing different video representations in benchmark datasets such as Charades-STA,
ActivityNet Captions, and YouCookII. An exhaustive framework is developed to isolate the
effect of different video representations, using a diverse set of more than 10 types of pretrained models, focusing on CNN and transformer-based action classifiers.
The results of this study are revealing. They demonstrate that optimizing the selection
of these video representations can significantly improve model performance, achieved by
preserving the model structures and modifying the video encoder simultaneously. The results
also indicate complementarity among video representations, suggesting that exploiting this
complementarity could open new avenues for research and refinement in TVG.
The study also reveals significant differences in model performance with just a change
in the video encoder. It uncovers clear patterns and errors derived from the use of certain
features, indicating possible complementarity among them. This suggests that a careful
selection of features can lead to more robust and generalizable models in TVG.
In conclusion, this work underscores the importance of video representations in TVG
tasks. It contributes to the field of CV by providing a framework for the extraction of video
representations, as well as fundamental ideas and methods that could guide the development
of more robust multimodal models in TVG.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias de la Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/200252
Collections
The following license files are associated with this item: