Extracción de vectores de características compactos para la recuperación de imágenes basadas en dibujos usando modelos convolucionales
Professor Advisor
dc.contributor.advisor
Saavedra Rondo, José
Author
dc.contributor.author
Torres Dessi, Pablo Ignacio
Associate professor
dc.contributor.other
Bravo Márquez, Felipe
Associate professor
dc.contributor.other
Cerda Villablanca, Mauricio
Admission date
dc.date.accessioned
2021-09-03T16:22:32Z
Available date
dc.date.available
2021-09-03T16:22:32Z
Publication date
dc.date.issued
2021
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/181793
General note
dc.description
Memoria para optar al título de Ingeniero Civil en Compuatción
es_ES
Abstract
dc.description.abstract
La recuperación de imágenes basada en dibujos (en inglés Sketch-Based Image Retrieval o SBIR) ha demostrado un creciente interés en la comunidad de visión por computadora, lo que genera un gran impacto en aplicaciones reales. Por ejemplo, SBIR aporta un mayor beneficio a los motores de búsqueda de comercio electrónico porque permite a los usuarios formular una consulta simplemente dibujando lo que necesitan comprar.
La eficacia lograda por los métodos del estado del arte en la recuperación basada en dibujos ha hecho posible pasar rápidamente del contexto científico a las aplicaciones industriales. Sin embargo, aplicaciones como un motor de búsqueda de comercio electrónico también imponen nuevos retos más allá de la eficacia en sí. En esta línea, el tiempo de búsqueda y el consumo de memoria son dos aspectos que los métodos SBIR deben considerar. Para solucionar esto, algunos autores han propuesto el uso de representaciones compactas, sin embargo, estas degradan drásticamente el rendimiento del sistema para altos niveles de reducción.
En este trabajo se abordó el problema planteado mediante redes convolucionales. Para ello se entrenó una red que hizo de modelo base inspirándose en trabajos del estado del arte y se compararon seis métodos de reducción de dimensión en dos datasets diferentes. Se utilizó Flickr15K y un dataset de eCommerce; este último es otro aporte de este trabajo.
Metodológicamente, se abordó este trabajo a través de la comparación de distintos métodos de reducción de dimensión, el análisis de componentes principales (PCA) y Uniform Manifold Approximation and Projection for Dimension Reduction (UMAP), los cuales permiten generar representaciones de baja dimensión en base a representaciones de mayor dimensión, como las generadas por el modelo base. Adicionalmente, se evaluaron métodos cuya función es generar representaciones de baja dimensión en base a redes convolucionales, como es el caso de Deep Supervised Hashing (DSH) y Deep Triplet Supervised Hashing (DTSH). Finalmente se propuso una Capa de Reducción Simple (CRS) y una Capa Binaria Sigmoidal (CBS) como estrategias adicionales a las anteriormente descritas.
Los resultados permitieron determinar las fortalezas de cada método. Se observo la gran eficacia que presenta UMAP, logrando obtener un mAP de 0.57 en el dataset de Flickr15K y 0.21 en el dataset de eCommerce, incluso mejorando el modelo base hasta en un 35\%, a la vez que reduce los tiempos de búsqueda en un 80\%.
Como conclusión, se determinó que los métodos evaluados lograron el objetivo de obtener representaciones compactas sin degradar la calidad de los resultados, logrando así reducir el tiempo y la memoria utilizada por los sistemas SBIR.