Abstract | dc.description.abstract | La recuperación de imágenes basada en dibujos es un problema del área de visión por computadora en donde se utilizan dibujos para realizar consultas y recuperar las fotos que más se parezcan al dibujo realizado. Debido a los avances tecnológicos de la última década, este problema ha comenzado a tener relevancia en el eCommerce, en donde se utilizan herramientas que permiten que el usuario dibuje lo que desea comprar. En este contexto, este trabajo busca evaluar métodos auto-supervisados y semi-supervisados para la extracción de características visuales, pudiendo utilizar fotos y dibujos sin etiquetas, para entrenar modelos que resuelvan el problema descrito.
Se implementan y estudian varios modelos de redes convolucionales enfocados a extraer características de dibujos, teniendo dos conjuntos: los modelos basados en Variational Autoencoders (VAE) y los modelos basados en Bootstrap Your Own Latent (BYOL). El primer grupo contempla modelos generativos, que son capaces de codificar una imagen en un vector de baja dimensionalidad y luego reconstruirla. Se estudian dos variedades, un VAE simple auto-supervisado que no utiliza etiquetas, y dos versiones de modelos VAE semi-supervisados capaces de ser entrenados con datos con y sin etiquetas. El primero no logra resultados que sean capaces de competir con los modelos supervisados, logrando solo un mAP@5 de 0,310 en comparación al 0,528 obtenido por un modelo supervisado, al evaluar en un conjunto con clases distintas a las del entrenamiento. Los modelos semi-supervisados M2 y VAE semi-supervisado, logran resultados competitivos solo al evaluar con las mismas clases utilizadas en el entrenamiento, logrando un mAP@5 de 0,648 y 0,624 respectivamente, en comparación al 0,585 obtenido por la contraparte supervisada.
En cuanto a los modelos basados en BYOL, se utiliza un BYOL simple para extraer características de dibujos, este modelo logra resultados competitivos contra modelos supervisados, logrando incluso generalizar de mejor manera hacia otras clases con un mAP@5 de 0,590 en comparación al 0,528 obtenido por un método supervisado. Debido a esto, se diseña un modelo inspirado en BYOL para trabajar tanto con dibujos como imágenes, pudiendo enfrentar el problema de recuperación de imágenes basada en dibujos. Este modelo logra resultados competitivos con los modelos de redes siamesas que se utilizan en la actualidad, sin utilizar etiquetas ni funciones de pérdida de clasificación durante el entrenamiento, teniendo un mAP de 0,178 al evaluar en un conjunto de datos de eCommerce, en comparación al 0,145 obtenido por una red siamesa supervisada. Finalmente, se propone una extensión de método de BYOL para fotos y dibujos, en donde solo se necesitan fotos y los dibujos son generados durante el entrenamiento, por lo que sería un modelo completamente auto-supervisado. | es_ES |