Evaluación de métodos auto-supervisados y semi-supervisados para la extracción de características visuales en el contexto de recuperación de imágenes basada en dibujos
Tesis
Access note
Acceso abierto
Publication date
2021Metadata
Show full item record
Cómo citar
Saavedra Rondo, José Manuel
Cómo citar
Evaluación de métodos auto-supervisados y semi-supervisados para la extracción de características visuales en el contexto de recuperación de imágenes basada en dibujos
Author
Professor Advisor
Abstract
La recuperación de imágenes basada en dibujos es un problema del área de visión por computadora en donde se utilizan dibujos para realizar consultas y recuperar las fotos que más se parezcan al dibujo realizado. Debido a los avances tecnológicos de la última década, este problema ha comenzado a tener relevancia en el eCommerce, en donde se utilizan herramientas que permiten que el usuario dibuje lo que desea comprar. En este contexto, este trabajo busca evaluar métodos auto-supervisados y semi-supervisados para la extracción de características visuales, pudiendo utilizar fotos y dibujos sin etiquetas, para entrenar modelos que resuelvan el problema descrito.
Se implementan y estudian varios modelos de redes convolucionales enfocados a extraer características de dibujos, teniendo dos conjuntos: los modelos basados en Variational Autoencoders (VAE) y los modelos basados en Bootstrap Your Own Latent (BYOL). El primer grupo contempla modelos generativos, que son capaces de codificar una imagen en un vector de baja dimensionalidad y luego reconstruirla. Se estudian dos variedades, un VAE simple auto-supervisado que no utiliza etiquetas, y dos versiones de modelos VAE semi-supervisados capaces de ser entrenados con datos con y sin etiquetas. El primero no logra resultados que sean capaces de competir con los modelos supervisados, logrando solo un mAP@5 de 0,310 en comparación al 0,528 obtenido por un modelo supervisado, al evaluar en un conjunto con clases distintas a las del entrenamiento. Los modelos semi-supervisados M2 y VAE semi-supervisado, logran resultados competitivos solo al evaluar con las mismas clases utilizadas en el entrenamiento, logrando un mAP@5 de 0,648 y 0,624 respectivamente, en comparación al 0,585 obtenido por la contraparte supervisada.
En cuanto a los modelos basados en BYOL, se utiliza un BYOL simple para extraer características de dibujos, este modelo logra resultados competitivos contra modelos supervisados, logrando incluso generalizar de mejor manera hacia otras clases con un mAP@5 de 0,590 en comparación al 0,528 obtenido por un método supervisado. Debido a esto, se diseña un modelo inspirado en BYOL para trabajar tanto con dibujos como imágenes, pudiendo enfrentar el problema de recuperación de imágenes basada en dibujos. Este modelo logra resultados competitivos con los modelos de redes siamesas que se utilizan en la actualidad, sin utilizar etiquetas ni funciones de pérdida de clasificación durante el entrenamiento, teniendo un mAP de 0,178 al evaluar en un conjunto de datos de eCommerce, en comparación al 0,145 obtenido por una red siamesa supervisada. Finalmente, se propone una extensión de método de BYOL para fotos y dibujos, en donde solo se necesitan fotos y los dibujos son generados durante el entrenamiento, por lo que sería un modelo completamente auto-supervisado.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/184264
Collections
The following license files are associated with this item: