Impacto del audio para la descripción automática de videos (video to text)

Naranjo Mogollones, Diego Fernando

Professor Advisor	dc.contributor.advisor	Bustos Cárdenas, Benjamín
Author	dc.contributor.author	Naranjo Mogollones, Diego Fernando
Associate professor	dc.contributor.other	Bravo Márquez, Felipe
Associate professor	dc.contributor.other	Saavedra Rondo, José
Admission date	dc.date.accessioned	2021-06-02T15:09:02Z
Available date	dc.date.available	2021-06-02T15:09:02Z
Publication date	dc.date.issued	2020
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/179919
General note	dc.description	Tesis para optar al grado de Magíster en Tecnologías de la Información	es_ES
Abstract	dc.description.abstract	En esta tesis se abordó el desafío video-to-text: match and ranking organizado por National Institute of Standar and Techonology (NIST) donde los desafíos y resultados se agrupan en la rama conocida como TREC Video Retrieval Evaluation (TRECVID). Este problema consiste en que dado un conjunto de frases F y un conjunto de videos V, ambos del mismo tamaño (#F = #V) se deben ordenar las frases f_i de F de forma que el orden represente el nivel de correspondencia o similitud de cada frase f_i al video v_k. De esta forma cada video tendrá un ranking de frases que mejor lo describen. Se poseen datos etiquetados para entrenar y probar la solución. La base de datos para desarrollo y validación es provista por TRECVID, donde se usaron los datos etiquetados de los desafíos de video-to-text del 2016, 2017 y 2018. En este trabajo se resolvió el problema usando el audio de los videos, se utilizó una red neuronal como descriptor para el audio esta fue la red pre-entrenada SoundNet. Como descriptor para las frases se utilizó un Bag of Words (BoW) y word2vec promediado. Para comparar los audios y las frases en un espacio común se utilizó una Red Neuronal Siamesa. Se realizaron varios modelos para evaluar estas componentes. La validación numéricamente se obtuvo promediando la posición o rank de la frase correspondiente al audio del video obtenida al ordenar las predicciones del modelo entre el audio y todas las frases de validación, esto para cada audio de video. La posición promedio obtenida del match asociado al mejor modelo fue ranking fue 1,282. Si bien es alejado al mejor resultado posible (1), es mejor que usar un modelo de ordenamiento aleatorio uniforme para crear los ranking. Se observó que muchos de los audio de video era nulo o eran sonidos no relacionados al contenido de los cuadros de los videos que son los que describen las frases, esto sería un factor a explicar el desempeño regular usando el audio de los videos obtenido en este desafío particular. Además, el descriptor usado en las frases tiene la pérdida de orden palabras en los vectores resultantes. Los resultados, sin embargo, sugieren que el audio podría ser un aporte, por ejemplo, para ser usado como complemento a un método que analice los cuadros de los videos.	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/	*
Keywords	dc.subject	Redes neuronales (Ciencia de la computación)	es_ES
Keywords	dc.subject	Video-to-text	es_ES
Keywords	dc.subject	SoundNet	es_ES
Keywords	dc.subject	Red Neuronal Siamesa	es_ES
Título	dc.title	Impacto del audio para la descripción automática de videos (video to text)	es_ES
Document type	dc.type	Tesis
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES

Files in this item

Name:: Impacto-del-audio-para-la-desc ...
Size:: 5.537Mb
Format:: PDF

Name:: TablaConten.pdf
Size:: 112.0Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile