Extracción de vectores de características compactos para la recuperación de imágenes basadas en dibujos usando modelos convolucionales
Tesis
Publication date
2021Metadata
Show full item record
Cómo citar
Saavedra Rondo, José
Cómo citar
Extracción de vectores de características compactos para la recuperación de imágenes basadas en dibujos usando modelos convolucionales
Author
Professor Advisor
Abstract
La recuperación de imágenes basada en dibujos (en inglés Sketch-Based Image Retrieval o SBIR) ha demostrado un creciente interés en la comunidad de visión por computadora, lo que genera un gran impacto en aplicaciones reales. Por ejemplo, SBIR aporta un mayor beneficio a los motores de búsqueda de comercio electrónico porque permite a los usuarios formular una consulta simplemente dibujando lo que necesitan comprar.
La eficacia lograda por los métodos del estado del arte en la recuperación basada en dibujos ha hecho posible pasar rápidamente del contexto científico a las aplicaciones industriales. Sin embargo, aplicaciones como un motor de búsqueda de comercio electrónico también imponen nuevos retos más allá de la eficacia en sí. En esta línea, el tiempo de búsqueda y el consumo de memoria son dos aspectos que los métodos SBIR deben considerar. Para solucionar esto, algunos autores han propuesto el uso de representaciones compactas, sin embargo, estas degradan drásticamente el rendimiento del sistema para altos niveles de reducción.
En este trabajo se abordó el problema planteado mediante redes convolucionales. Para ello se entrenó una red que hizo de modelo base inspirándose en trabajos del estado del arte y se compararon seis métodos de reducción de dimensión en dos datasets diferentes. Se utilizó Flickr15K y un dataset de eCommerce; este último es otro aporte de este trabajo.
Metodológicamente, se abordó este trabajo a través de la comparación de distintos métodos de reducción de dimensión, el análisis de componentes principales (PCA) y Uniform Manifold Approximation and Projection for Dimension Reduction (UMAP), los cuales permiten generar representaciones de baja dimensión en base a representaciones de mayor dimensión, como las generadas por el modelo base. Adicionalmente, se evaluaron métodos cuya función es generar representaciones de baja dimensión en base a redes convolucionales, como es el caso de Deep Supervised Hashing (DSH) y Deep Triplet Supervised Hashing (DTSH). Finalmente se propuso una Capa de Reducción Simple (CRS) y una Capa Binaria Sigmoidal (CBS) como estrategias adicionales a las anteriormente descritas.
Los resultados permitieron determinar las fortalezas de cada método. Se observo la gran eficacia que presenta UMAP, logrando obtener un mAP de 0.57 en el dataset de Flickr15K y 0.21 en el dataset de eCommerce, incluso mejorando el modelo base hasta en un 35\%, a la vez que reduce los tiempos de búsqueda en un 80\%.
Como conclusión, se determinó que los métodos evaluados lograron el objetivo de obtener representaciones compactas sin degradar la calidad de los resultados, logrando así reducir el tiempo y la memoria utilizada por los sistemas SBIR.
General note
Memoria para optar al título de Ingeniero Civil en Compuatción
Identifier
URI: https://repositorio.uchile.cl/handle/2250/181793
Collections
The following license files are associated with this item: