Show simple item record

Professor Advisordc.contributor.advisorBustos Cárdenas, Benjamín
Authordc.contributor.authorNaranjo Mogollones, Diego Fernando 
Associate professordc.contributor.otherBravo Márquez, Felipe
Associate professordc.contributor.otherSaavedra Rondo, José
Admission datedc.date.accessioned2021-06-02T15:09:02Z
Available datedc.date.available2021-06-02T15:09:02Z
Publication datedc.date.issued2020
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/179919
General notedc.descriptionTesis para optar al grado de Magíster en Tecnologías de la Informaciónes_ES
Abstractdc.description.abstractEn esta tesis se abordó el desafío video-to-text: match and ranking organizado por National Institute of Standar and Techonology (NIST) donde los desafíos y resultados se agrupan en la rama conocida como TREC Video Retrieval Evaluation (TRECVID). Este problema consiste en que dado un conjunto de frases F y un conjunto de videos V, ambos del mismo tamaño (#F = #V) se deben ordenar las frases f_i de F de forma que el orden represente el nivel de correspondencia o similitud de cada frase f_i al video v_k. De esta forma cada video tendrá un ranking de frases que mejor lo describen. Se poseen datos etiquetados para entrenar y probar la solución. La base de datos para desarrollo y validación es provista por TRECVID, donde se usaron los datos etiquetados de los desafíos de video-to-text del 2016, 2017 y 2018. En este trabajo se resolvió el problema usando el audio de los videos, se utilizó una red neuronal como descriptor para el audio esta fue la red pre-entrenada SoundNet. Como descriptor para las frases se utilizó un Bag of Words (BoW) y word2vec promediado. Para comparar los audios y las frases en un espacio común se utilizó una Red Neuronal Siamesa. Se realizaron varios modelos para evaluar estas componentes. La validación numéricamente se obtuvo promediando la posición o rank de la frase correspondiente al audio del video obtenida al ordenar las predicciones del modelo entre el audio y todas las frases de validación, esto para cada audio de video. La posición promedio obtenida del match asociado al mejor modelo fue ranking fue 1,282. Si bien es alejado al mejor resultado posible (1), es mejor que usar un modelo de ordenamiento aleatorio uniforme para crear los ranking. Se observó que muchos de los audio de video era nulo o eran sonidos no relacionados al contenido de los cuadros de los videos que son los que describen las frases, esto sería un factor a explicar el desempeño regular usando el audio de los videos obtenido en este desafío particular. Además, el descriptor usado en las frases tiene la pérdida de orden palabras en los vectores resultantes. Los resultados, sin embargo, sugieren que el audio podría ser un aporte, por ejemplo, para ser usado como complemento a un método que analice los cuadros de los videos.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectRedes neuronales (Ciencia de la computación)es_ES
Keywordsdc.subjectVideo-to-textes_ES
Keywordsdc.subjectSoundNetes_ES
Keywordsdc.subjectRed Neuronal Siamesaes_ES
Títulodc.titleImpacto del audio para la descripción automática de videos (video to text)es_ES
Document typedc.typeTesis
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile