Búsqueda por texto de imágenes sin etiquetar

En la era de internet es el contenido multimedia el que concentra la mayoría del tráfico y se espera que para el 2020 este tipo de datos tenga un tráfico de más de 100,000 petabytes al mes. Esto junto con el creciente uso de redes sociales ha provocado que buscar imágenes sea una práctica habitual. Esta situación está resuelta para imágenes que tienen texto asociado como las que se encuentran en Google. ¿Pero qué pasa si se necesita buscar en una base de datos de imágenes que no tienen texto asociado? Por ejemplo, las imágenes subidas a una red social, o las carpetas del computador que tienen las imágenes de las vacaciones. Esta es la principal pregunta que motiva este trabajo, el cual está basado principalmente en las investigaciones de Snoek, Dong y Li quienes aplican la técnica word2visualvec, donde la idea principal es entrenar una red neuronal para que aprenda a transformar el espacio de los descriptores de texto al espacio de los descriptores de imágenes, conservando la relación semántica entre el texto y las imágenes. Para el entrenamiento de la red neuronal se usó el dataset MSCOCO, el cual consiste en más de 80,000 imágenes para entrenar y validar el modelo y más de 40,000 para ser usadas como conjunto de prueba. Además de las fotos, este dataset contiene 5 descripciones de texto para cada una de ellas. Así en total se tienen más de 400.000 ejemplos de texto-imagen para entrenar la red neuronal. Los experimentos se dividieron en 3 partes que se diferencian en el tipo de descriptor de texto y descriptor de imagen usados. Para el texto se usaron los descriptores TF-IDF, R-TF-IDF y word2vec y para las imágenes se usaron los descriptores VLAD y Deep Features (basado en la VGG16). En total se entrenaron 21 modelos, 18 de ellos fueron entrenados en inglés y 3 en español. La evaluación de los modelos consideró el tiempo de entrenamiento, el costo en el conjunto de validación y el Average Precision de los resultados retornados. Los resultados obtenidos son prometedores y permiten sacar conclusiones muy importan- tes. Dentro de ellas es que el impacto de los descriptores de texto se refleja mayormente en el tiempo de entrenamiento, donde el descriptor word2vec es el más rápido de entrenar. Mientras que los descriptores de imágenes impactan significativamente en la relevancia de los resultados, siendo Deep Features basados en la red pre-entrenada VGG16 el que tuvo los mejores resultados, alcanzando una efectividad de 20 % en coincidencias exactas y 68 % en coincidencias parciales.

General note

Memoria para optar al título de Ingeniero Civil Eléctrico

Identifier

URI: https://repositorio.uchile.cl/handle/2250/170236

Collections