Recuperación semántica de imágenes basada en contenido en el comercio electrónico a través de modelos auto-supervisados
Tesis

Access note
Acceso abierto
Publication date
2022Metadata
Show full item record
Cómo citar
Saavedra Rondo, José
Cómo citar
Recuperación semántica de imágenes basada en contenido en el comercio electrónico a través de modelos auto-supervisados
Professor Advisor
Abstract
El comercio electrónico forma parte sustancial en una gran cantidad de negocios enfocados en la venta de productos o servicios en línea, más aún cuando se toma en cuenta la situación actual ocasionada por la pandemia. Existen diversas herramientas que facilitan y mejoran la experiencia al usar este tipo de comercios, entre ellas, los motores de búsqueda que usan la recuperación de imágenes basada en contenido. Esta es un problema del área de visión por computadora en el cual se usan imágenes para realizar consultas y recuperar otras imágenes que sean similares a la consulta. Sin embargo, en la realidad, los motores de búsqueda que funcionan con imágenes poseen una baja efectividad, sobre todo si la consulta ingresada se presenta en un medio no controlado.
Los catálogos de comercio electrónico contienen gran variedad de información, como por ejemplo, los textos de las descripciones de sus productos, que pueden ser utilizados para agregar semántica, y por ende, mejorar la recuperación de imágenes. En este trabajo se crean seis datasets de distintos comercios electrónicos, y se realizan estudios preliminares sobre estos para evaluar el posible aporte de las descripciones de productos. Además, se diseñan, implementan y evalúan, sobre los mismos datasets, diferentes métodos para agregar semántica en la recuperación de imágenes: ajuste de embeddings dentro del catálogo, query adaptativa en tiempo real, redes neuronales feed-forward fully-connected para aprender a representar espacios visuales como espacios de texto, uso de UMAP para reducir dimensiones manteniendo topología local, y el uso y entrenamiento del recientemente presentado modelo CLIP.
Los resultados que se obtienen al utilizar tanto UMAP como las redes neuronales feed-forward fully-connected no logran superar el modelo ResNet-50 definido como baseline. Sin embargo, el resto de los métodos mejora la recuperación significativamente en la mayoría de los casos, tanto para imágenes limpias como para fotos e imágenes con ruido, lográndose apreciar en los resultados un aumento en la semántica. Para las imágenes del primer tipo, tomando en cuenta todos los catálogos, se obtienen mejoras de mAP@20 de hasta un 14.83% al evaluar a grano grueso. Evaluando a grano fino, el mAP@20 logra aumentar en un 11.45%. Por otro lado, en cuanto a las imágenes del segundo tipo, evaluadas únicamente en dos catálogos y a grano grueso, se obtienen mejoras de mAP@20 de un 13.2% para un catálogo, y un 24.11% para el otro. Finalmente, se proponen enfoques para mejorar los resultados de este trabajo, tanto diseñando otros algoritmos de ajuste de embeddings y queries adaptativas, como realizando entrenamiento de modelos con una mayor cantidad de datos, y utilizando imágenes con ruido. Además, como idea para expandir las aplicaciones de estos métodos, se propone estudiar la capacidad del modelo CLIP dentro del contexto de recuperación de imágenes basada en dibujos.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil en Computación
Collections
The following license files are associated with this item: