Recuperación de imágenes basada en dibujos mediante redes convolucionales
Professor Advisor
dc.contributor.advisor
Saavedra Rondo, José
Author
dc.contributor.author
Fuentes Jara, Aníbal Ignacio
Associate professor
dc.contributor.other
Silva Sánchez, Jorge
Associate professor
dc.contributor.other
Barrios Núñez, Juan
Admission date
dc.date.accessioned
2020-06-18T23:37:49Z
Available date
dc.date.available
2020-06-18T23:37:49Z
Publication date
dc.date.issued
2020
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/175585
General note
dc.description
Memoria para optar al título de Ingeniero Civil Eléctrico
es_ES
Abstract
dc.description.abstract
La recuperación de imágenes basada en dibujos (en inglés Sketch Based Image Retrieval o
SBIR) ha aumentado el interés de empresas e investigadores en los últimos años, debido a
que representa una modalidad de búsqueda sencilla y a la vez poderosa, y a la proliferación
de dispositivos móviles con pantalla táctil, que hacen que este tipo de consultas sea fácil
de realizar. El problema de SBIR consiste en realizar consultas a través de dibujos a un
catálogo o dataset de imágenes, de modo de ordenar estas imágenes acorde a su similitud con
el dibujo realizado. En este trabajo se aborda el problema mediante redes convolucionales,
en donde una red neuronal convolucional es entrenada para extraer características de dibujos
e imágenes, las cuales luego son utilizadas en conjunto a una métrica de similitud para
cuantificar la similitud entre entre la consulta y las imágenes del catálogo. Además, en este
trabajo se extiende el alcance de SBIR para agregar color a los dibujos, y así recuperar
imágenes de forma y color similar al dibujo realizado, este problema es llamado Color Sketch
Based Image Retrieval (CSBIR); se propone así una nueva arquitectura basada en redes
convolucionales para entrenar este tipo de sistemas.
Para abordar el problema de SBIR se implementan tres enfoques diferentes basados en la
literatura, los cuales son Deep SBIR, Siamese SBIR, Multi Stage Regression SBIR.
Estos enfoques utilizan distintas funciones de costo durante el entrenamiento, tal como cross
entropy loss, siamese loss y triplet loss; en particular el último método es el que presenta
mejores resultados, obteniendo un mAP de 0.553 en el dataset de evaluación Flickr 15K,
resultado que alcanza el estado del arte.
Por otro lado para abordar el problema de CSBIR se proponen dos enfoques distintos, el
primero llamado CSBIR con histogramas de color consistente en extraer por separado
características de forma y de color de dibujos e imágenes, mientras que el segundo enfoque
llamado SBIR con Quadruplet Networks utiliza una arquitectura con Quadruplet Networks
y una nueva función de pérdida para extraer una representación que considere tanto
forma como color. Para obtener un dataset de entrenamiento se propone una metodología
para generar dibujos con color a partir de imágenes. Para la evaluación de estos métodos se
realizan a mano 200 dibujos con color a partir de un dataset de fotografías de catálogo; los
resultados muestran que el segundo método alcanza un desempeño superior, llegando a un
MRR de 0.352, comparado con 0.216 del primer método.
Finalmente se concluye que los métodos desarrollados presentan un muy buen desempeño,
logrando replicar el estado del arte en SBIR; esto debido a las metodologías empleadas en
el entrenamiento y a la capacidad de las redes convolucionales de aprender y generalizar
mediante grandes volúmenes de datos. Además, estos modelos pueden ser utilizados para
implementar buscadores en plataformas de e-commerce, representando una modalidad de
búsqueda novedosa y atractiva para el usuario.