Impacto del audio para la descripción automática de videos (video to text)
Tesis
Publication date
2020Metadata
Show full item record
Cómo citar
Bustos Cárdenas, Benjamín
Cómo citar
Impacto del audio para la descripción automática de videos (video to text)
Professor Advisor
Abstract
En esta tesis se abordó el desafío video-to-text: match and ranking organizado por National Institute of Standar and Techonology (NIST) donde los desafíos y resultados se agrupan en la rama conocida como TREC Video Retrieval Evaluation (TRECVID). Este problema consiste en que dado un conjunto de frases F y un conjunto de videos V, ambos del mismo tamaño (#F = #V) se deben ordenar las frases f_i de F de forma que el orden represente el nivel de correspondencia o similitud de cada frase f_i al video v_k. De esta forma cada video tendrá un ranking de frases que mejor lo describen. Se poseen datos etiquetados para entrenar y probar la solución. La base de datos para desarrollo y validación es provista por TRECVID, donde se usaron los datos etiquetados de los desafíos de video-to-text del 2016, 2017 y 2018.
En este trabajo se resolvió el problema usando el audio de los videos, se utilizó una red neuronal como descriptor para el audio esta fue la red pre-entrenada SoundNet. Como descriptor para las frases se utilizó un Bag of Words (BoW) y word2vec promediado. Para comparar los audios y las frases en un espacio común se utilizó una Red Neuronal Siamesa. Se realizaron varios modelos para evaluar estas componentes. La validación numéricamente se obtuvo promediando la posición o rank de la frase correspondiente al audio del video obtenida al ordenar las predicciones del modelo entre el audio y todas las frases de validación, esto para cada audio de video.
La posición promedio obtenida del match asociado al mejor modelo fue ranking fue 1,282. Si bien es alejado al mejor resultado posible (1), es mejor que usar un modelo de ordenamiento aleatorio uniforme para crear los ranking. Se observó que muchos de los audio de video era nulo o eran sonidos no relacionados al contenido de los cuadros de los videos que son los que describen las frases, esto sería un factor a explicar el desempeño regular usando el audio de los videos obtenido en este desafío particular. Además, el descriptor usado en las frases tiene la pérdida de orden palabras en los vectores resultantes. Los resultados, sin embargo, sugieren que el audio podría ser un aporte, por ejemplo, para ser usado como complemento a un método que analice los cuadros de los videos.
General note
Tesis para optar al grado de Magíster en Tecnologías de la Información
Identifier
URI: https://repositorio.uchile.cl/handle/2250/179919
Collections
The following license files are associated with this item: