Recuperación semántica de imágenes basada en contenido en el comercio electrónico a través de modelos auto-supervisados

Martínez Salazar, Guillermo Andrés

Professor Advisor	dc.contributor.advisor	Saavedra Rondo, José
Professor Advisor	dc.contributor.advisor	Murrugarra Llerena, Nils
Author	dc.contributor.author	Martínez Salazar, Guillermo Andrés
Associate professor	dc.contributor.other	Abeliuk Kimelman, Andrés
Associate professor	dc.contributor.other	Perovich Gerosa, Daniel
Admission date	dc.date.accessioned	2022-07-12T22:55:56Z
Available date	dc.date.available	2022-07-12T22:55:56Z
Publication date	dc.date.issued	2022
Identifier	dc.identifier.other	10.58011/ytyn-q185
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/186674
Abstract	dc.description.abstract	El comercio electrónico forma parte sustancial en una gran cantidad de negocios enfocados en la venta de productos o servicios en línea, más aún cuando se toma en cuenta la situación actual ocasionada por la pandemia. Existen diversas herramientas que facilitan y mejoran la experiencia al usar este tipo de comercios, entre ellas, los motores de búsqueda que usan la recuperación de imágenes basada en contenido. Esta es un problema del área de visión por computadora en el cual se usan imágenes para realizar consultas y recuperar otras imágenes que sean similares a la consulta. Sin embargo, en la realidad, los motores de búsqueda que funcionan con imágenes poseen una baja efectividad, sobre todo si la consulta ingresada se presenta en un medio no controlado. Los catálogos de comercio electrónico contienen gran variedad de información, como por ejemplo, los textos de las descripciones de sus productos, que pueden ser utilizados para agregar semántica, y por ende, mejorar la recuperación de imágenes. En este trabajo se crean seis datasets de distintos comercios electrónicos, y se realizan estudios preliminares sobre estos para evaluar el posible aporte de las descripciones de productos. Además, se diseñan, implementan y evalúan, sobre los mismos datasets, diferentes métodos para agregar semántica en la recuperación de imágenes: ajuste de embeddings dentro del catálogo, query adaptativa en tiempo real, redes neuronales feed-forward fully-connected para aprender a representar espacios visuales como espacios de texto, uso de UMAP para reducir dimensiones manteniendo topología local, y el uso y entrenamiento del recientemente presentado modelo CLIP. Los resultados que se obtienen al utilizar tanto UMAP como las redes neuronales feed-forward fully-connected no logran superar el modelo ResNet-50 definido como baseline. Sin embargo, el resto de los métodos mejora la recuperación significativamente en la mayoría de los casos, tanto para imágenes limpias como para fotos e imágenes con ruido, lográndose apreciar en los resultados un aumento en la semántica. Para las imágenes del primer tipo, tomando en cuenta todos los catálogos, se obtienen mejoras de mAP@20 de hasta un 14.83% al evaluar a grano grueso. Evaluando a grano fino, el mAP@20 logra aumentar en un 11.45%. Por otro lado, en cuanto a las imágenes del segundo tipo, evaluadas únicamente en dos catálogos y a grano grueso, se obtienen mejoras de mAP@20 de un 13.2% para un catálogo, y un 24.11% para el otro. Finalmente, se proponen enfoques para mejorar los resultados de este trabajo, tanto diseñando otros algoritmos de ajuste de embeddings y queries adaptativas, como realizando entrenamiento de modelos con una mayor cantidad de datos, y utilizando imágenes con ruido. Además, como idea para expandir las aplicaciones de estos métodos, se propone estudiar la capacidad del modelo CLIP dentro del contexto de recuperación de imágenes basada en dibujos.	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Keywords	dc.subject	Comercio electrónico
Keywords	dc.subject	Recuperación de información
Keywords	dc.subject	Procesamiento de imagen
Keywords	dc.subject	Recuperación de imágenes
Keywords	dc.subject	Visual-text
Keywords	dc.subject	Self-supervised
Título	dc.title	Recuperación semántica de imágenes basada en contenido en el comercio electrónico a través de modelos auto-supervisados	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil en Computación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Licenciado	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al título de Ingeniero Civil en Computación	es_ES

Files in this item

Name:: TablaConten.pdf
Size:: 52.80Kb
Format:: PDF

Name:: Recuperacion-semantica-de-imag ...
Size:: 23.86Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States