Professor Advisor | dc.contributor.advisor | Bravo Márquez, Felipe | |
Author | dc.contributor.author | Meza de la Jara, Ignacio Alejandro | |
Associate professor | dc.contributor.other | Bustos Cárdenas, Benjamín | |
Associate professor | dc.contributor.other | Abeliuk Kimelman, Andrés | |
Associate professor | dc.contributor.other | Reutter De La Maza, Juan | |
Admission date | dc.date.accessioned | 2024-08-14T17:45:33Z | |
Available date | dc.date.available | 2024-08-14T17:45:33Z | |
Publication date | dc.date.issued | 2024 | |
Identifier | dc.identifier.uri | https://repositorio.uchile.cl/handle/2250/200252 | |
Abstract | dc.description.abstract | El n´ucleo de computer vision (CV) reside en la comprensi´on e interpretaci´on de v´ıdeos largos
e in´editos, una tarea dificultada por el esfuerzo manual necesario para analizar la ingente
cantidad de contenidos de v´ıdeo que se generan diariamente. La tarea de Temporal Video
Grounding (TVG) se perfila como una soluci´on clave en este ´ambito, con el objetivo de
desarrollar modelos que identifiquen y marquen los l´ımites temporales de las acciones en los
v´ıdeos mediante el lenguaje natural. El campo ha evolucionado significativamente, pasando
de modelos basados en sugerencias a t´ecnicas avanzadas que utilizan modelos basados en
transformadores, mejorando notablemente la precisi´on y la eficiencia.
A pesar de estos avances, sigue habiendo una brecha en la exploraci´on de la representaci´on
de v´ıdeos en la TVG. La dependencia de caracter´ısticas espec´ıficas de los modelos de clasificaci´on tradicionales puede conducir a un ajuste excesivo y a una generalizaci´on limitada. Para
abordar esta cuesti´on, esta tesis propone un estudio emp´ırico detallado en el que se analizan
diferentes representaciones de v´ıdeo en conjuntos de datos de referencia como CharadesSTA, ActivityNet Captions y YouCookII. Se desarrolla un marco exhaustivo para aislar el
efecto de las distintas representaciones de v´ıdeo, utilizando un conjunto diverso de m´as de
10 tipos de modelos preentrenados, centrados en clasificadores de acci´on basados en CNN y
transformadores.
Los resultados de este estudio son reveladores. Demuestran que la optimizaci´on de la
selecci´on de estas representaciones de v´ıdeo puede mejorar significativamente el rendimiento
del modelo, lo que se logra preservando las estructuras del modelo y modificando al mismo
tiempo el codificador de v´ıdeo. Los resultados tambi´en indican complementariedad entre
las representaciones de v´ıdeo, sugiriendo que explotar esta complementariedad podr´ıa abrir
nuevas v´ıas de investigaci´on y perfeccionamiento en TVG.
El estudio tambi´en revela diferencias significativas en el rendimiento del modelo con solo
cambiar el codificador de v´ıdeo. Descubre patrones y errores claros derivados del uso de
determinadas caracter´ısticas, lo que indica una posible complementariedad entre ellas. Esto
sugiere que una selecci´on cuidadosa de caracter´ısticas puede conducir a modelos m´as robustos
y generalizables en TVG.
En conclusi´on, este trabajo subraya la relevancia de las representaciones de v´ıdeo en las
tareas de TVG. Aporta al campo de CV proveyendo un framework para la extracci´on de
representaciones de v´ıdeos, as´ı como ideas y m´etodos fundamentales que podr´ıan orientar el
desarrollo de modelos multimodales m´as robustos en TVG. | es_ES |
Abstract | dc.description.abstract | The core of computer vision (CV) lies in the understanding and interpretation of long and
unprecedented videos, a task made difficult by the manual effort required to analyze the
vast amount of video content generated daily. The task of Temporal Video Grounding
(TVG) is emerging as a key solution in this field, aiming to develop models that identify
and mark the temporal boundaries of actions in videos using natural language. The field has
evolved significantly, moving from models based on suggestions to advanced techniques using
transformer-based models, notably improving accuracy and efficiency.
Despite these advances, there remains a gap in exploring video representation in TVG.
The reliance on specific features of traditional classification models can lead to overfitting
and limited generalization. To address this issue, this thesis proposes a detailed empirical
study analyzing different video representations in benchmark datasets such as Charades-STA,
ActivityNet Captions, and YouCookII. An exhaustive framework is developed to isolate the
effect of different video representations, using a diverse set of more than 10 types of pretrained models, focusing on CNN and transformer-based action classifiers.
The results of this study are revealing. They demonstrate that optimizing the selection
of these video representations can significantly improve model performance, achieved by
preserving the model structures and modifying the video encoder simultaneously. The results
also indicate complementarity among video representations, suggesting that exploiting this
complementarity could open new avenues for research and refinement in TVG.
The study also reveals significant differences in model performance with just a change
in the video encoder. It uncovers clear patterns and errors derived from the use of certain
features, indicating possible complementarity among them. This suggests that a careful
selection of features can lead to more robust and generalizable models in TVG.
In conclusion, this work underscores the importance of video representations in TVG
tasks. It contributes to the field of CV by providing a framework for the extraction of video
representations, as well as fundamental ideas and methods that could guide the development
of more robust multimodal models in TVG. | es_ES |
Lenguage | dc.language.iso | en | es_ES |
Publisher | dc.publisher | Universidad de Chile | es_ES |
Type of license | dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | * |
Link to License | dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | * |
Título | dc.title | An empirical study of the effect of video encoders on temporal video grounding | es_ES |
Document type | dc.type | Tesis | es_ES |
dc.description.version | dc.description.version | Versión original del autor | es_ES |
dcterms.accessRights | dcterms.accessRights | Acceso abierto | es_ES |
Cataloguer | uchile.catalogador | chb | es_ES |
Department | uchile.departamento | Departamento de Ciencias de la Computación | es_ES |
Faculty | uchile.facultad | Facultad de Ciencias Físicas y Matemáticas | es_ES |
uchile.carrera | uchile.carrera | Ingeniería Civil en Computación | es_ES |
uchile.gradoacademico | uchile.gradoacademico | Magister | es_ES |
uchile.notadetesis | uchile.notadetesis | Tesis para optar al grado de Magíster en Ciencias de la Computación | es_ES |