Show simple item record

Professor Advisordc.contributor.advisorBravo Márquez, Felipe
Authordc.contributor.authorMeza de la Jara, Ignacio Alejandro
Associate professordc.contributor.otherBustos Cárdenas, Benjamín
Associate professordc.contributor.otherAbeliuk Kimelman, Andrés
Associate professordc.contributor.otherReutter De La Maza, Juan
Admission datedc.date.accessioned2024-08-14T17:45:33Z
Available datedc.date.available2024-08-14T17:45:33Z
Publication datedc.date.issued2024
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/200252
Abstractdc.description.abstractEl n´ucleo de computer vision (CV) reside en la comprensi´on e interpretaci´on de v´ıdeos largos e in´editos, una tarea dificultada por el esfuerzo manual necesario para analizar la ingente cantidad de contenidos de v´ıdeo que se generan diariamente. La tarea de Temporal Video Grounding (TVG) se perfila como una soluci´on clave en este ´ambito, con el objetivo de desarrollar modelos que identifiquen y marquen los l´ımites temporales de las acciones en los v´ıdeos mediante el lenguaje natural. El campo ha evolucionado significativamente, pasando de modelos basados en sugerencias a t´ecnicas avanzadas que utilizan modelos basados en transformadores, mejorando notablemente la precisi´on y la eficiencia. A pesar de estos avances, sigue habiendo una brecha en la exploraci´on de la representaci´on de v´ıdeos en la TVG. La dependencia de caracter´ısticas espec´ıficas de los modelos de clasificaci´on tradicionales puede conducir a un ajuste excesivo y a una generalizaci´on limitada. Para abordar esta cuesti´on, esta tesis propone un estudio emp´ırico detallado en el que se analizan diferentes representaciones de v´ıdeo en conjuntos de datos de referencia como CharadesSTA, ActivityNet Captions y YouCookII. Se desarrolla un marco exhaustivo para aislar el efecto de las distintas representaciones de v´ıdeo, utilizando un conjunto diverso de m´as de 10 tipos de modelos preentrenados, centrados en clasificadores de acci´on basados en CNN y transformadores. Los resultados de este estudio son reveladores. Demuestran que la optimizaci´on de la selecci´on de estas representaciones de v´ıdeo puede mejorar significativamente el rendimiento del modelo, lo que se logra preservando las estructuras del modelo y modificando al mismo tiempo el codificador de v´ıdeo. Los resultados tambi´en indican complementariedad entre las representaciones de v´ıdeo, sugiriendo que explotar esta complementariedad podr´ıa abrir nuevas v´ıas de investigaci´on y perfeccionamiento en TVG. El estudio tambi´en revela diferencias significativas en el rendimiento del modelo con solo cambiar el codificador de v´ıdeo. Descubre patrones y errores claros derivados del uso de determinadas caracter´ısticas, lo que indica una posible complementariedad entre ellas. Esto sugiere que una selecci´on cuidadosa de caracter´ısticas puede conducir a modelos m´as robustos y generalizables en TVG. En conclusi´on, este trabajo subraya la relevancia de las representaciones de v´ıdeo en las tareas de TVG. Aporta al campo de CV proveyendo un framework para la extracci´on de representaciones de v´ıdeos, as´ı como ideas y m´etodos fundamentales que podr´ıan orientar el desarrollo de modelos multimodales m´as robustos en TVG.es_ES
Abstractdc.description.abstractThe core of computer vision (CV) lies in the understanding and interpretation of long and unprecedented videos, a task made difficult by the manual effort required to analyze the vast amount of video content generated daily. The task of Temporal Video Grounding (TVG) is emerging as a key solution in this field, aiming to develop models that identify and mark the temporal boundaries of actions in videos using natural language. The field has evolved significantly, moving from models based on suggestions to advanced techniques using transformer-based models, notably improving accuracy and efficiency. Despite these advances, there remains a gap in exploring video representation in TVG. The reliance on specific features of traditional classification models can lead to overfitting and limited generalization. To address this issue, this thesis proposes a detailed empirical study analyzing different video representations in benchmark datasets such as Charades-STA, ActivityNet Captions, and YouCookII. An exhaustive framework is developed to isolate the effect of different video representations, using a diverse set of more than 10 types of pretrained models, focusing on CNN and transformer-based action classifiers. The results of this study are revealing. They demonstrate that optimizing the selection of these video representations can significantly improve model performance, achieved by preserving the model structures and modifying the video encoder simultaneously. The results also indicate complementarity among video representations, suggesting that exploiting this complementarity could open new avenues for research and refinement in TVG. The study also reveals significant differences in model performance with just a change in the video encoder. It uncovers clear patterns and errors derived from the use of certain features, indicating possible complementarity among them. This suggests that a careful selection of features can lead to more robust and generalizable models in TVG. In conclusion, this work underscores the importance of video representations in TVG tasks. It contributes to the field of CV by providing a framework for the extraction of video representations, as well as fundamental ideas and methods that could guide the development of more robust multimodal models in TVG.es_ES
Lenguagedc.language.isoenes_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleAn empirical study of the effect of video encoders on temporal video groundinges_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.carrerauchile.carreraIngeniería Civil en Computaciónes_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Ciencias de la Computaciónes_ES


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States