Búsqueda por texto de imágenes sin etiquetar
Author
Professor Advisor
Abstract
En la era de internet es el contenido multimedia el que concentra la mayoría del tráfico y se espera que para el 2020 este tipo de datos tenga un tráfico de más de 100,000 petabytes al mes.
Esto junto con el creciente uso de redes sociales ha provocado que buscar imágenes sea una práctica habitual. Esta situación está resuelta para imágenes que tienen texto asociado como las que se encuentran en Google. ¿Pero qué pasa si se necesita buscar en una base de datos de imágenes que no tienen texto asociado? Por ejemplo, las imágenes subidas a una red social, o las carpetas del computador que tienen las imágenes de las vacaciones.
Esta es la principal pregunta que motiva este trabajo, el cual está basado principalmente en las investigaciones de Snoek, Dong y Li quienes aplican la técnica word2visualvec, donde la idea principal es entrenar una red neuronal para que aprenda a transformar el espacio de los descriptores de texto al espacio de los descriptores de imágenes, conservando la relación semántica entre el texto y las imágenes.
Para el entrenamiento de la red neuronal se usó el dataset MSCOCO, el cual consiste en más de 80,000 imágenes para entrenar y validar el modelo y más de 40,000 para ser usadas como conjunto de prueba. Además de las fotos, este dataset contiene 5 descripciones de texto para cada una de ellas. Así en total se tienen más de 400.000 ejemplos de texto-imagen para entrenar la red neuronal.
Los experimentos se dividieron en 3 partes que se diferencian en el tipo de descriptor de texto y descriptor de imagen usados. Para el texto se usaron los descriptores TF-IDF, R-TF-IDF y word2vec y para las imágenes se usaron los descriptores VLAD y Deep Features (basado en la VGG16). En total se entrenaron 21 modelos, 18 de ellos fueron entrenados en inglés y 3 en español. La evaluación de los modelos consideró el tiempo de entrenamiento, el costo en el conjunto de validación y el Average Precision de los resultados retornados.
Los resultados obtenidos son prometedores y permiten sacar conclusiones muy importan- tes. Dentro de ellas es que el impacto de los descriptores de texto se refleja mayormente en el tiempo de entrenamiento, donde el descriptor word2vec es el más rápido de entrenar. Mientras que los descriptores de imágenes impactan significativamente en la relevancia de los resultados, siendo Deep Features basados en la red pre-entrenada VGG16 el que tuvo los mejores resultados, alcanzando una efectividad de 20 % en coincidencias exactas y 68 % en coincidencias parciales.
General note
Memoria para optar al título de Ingeniero Civil Eléctrico
Identifier
URI: https://repositorio.uchile.cl/handle/2250/170236
Collections
The following license files are associated with this item: