Generative models for translating colored sketches to photorealistic images in the e-commerce context
Tesis

Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Saavedra Rondo, José Manuel
Cómo citar
Generative models for translating colored sketches to photorealistic images in the e-commerce context
Author
Professor Advisor
Abstract
Sketch-based understanding is involved in human communication and cognitive development, making it essential in visual perception. A specific task in this domain is sketch-to-photo translation, where a model produces realistic images from simple drawings. To this end, large paired training datasets are commonly required, which is impractical in real applications.
Thus, this work studies conditional generative models for sketch-to-photo translation, overcoming the lack of training datasets by a self-supervised approach that produces sketch-photo pairs from a target catalog. Our study shows the benefit of cycle-consistency loss and UNet architectures that, together with the proposed dataset generation, improve performance in real applications like eCommerce. Our results also reveal the weakness of conditional DDPMs for generating images resembling the input sketch, even though they achieve a low FID score. A significant challenge is allowing the user to control the output color of the generated image in the sketch-to-photo translation. We leveraged the previously built dataset and added color palettes to train a new model specialized in this task. We show that it is possible to implement a model trained for this task and propose a new problem of building an end-to-end model.
Our work contributes to the Sketch-Based understanding community since we propose a framework to successfully build a conditional dataset for the Image to Image translation task. Furthermore, with the proposed model, users can design new objects based on sketches entirely. On the other hand, e-commerces can leverage the input as a new latent space for Image search. La comprensión basada en bocetos está involucrada en la comunicación humana y en el
desarrollo cognitivo, haciéndolo esencial en la percepción visual. Una tarea especifica en
este ´ámbito es la transformación de dibujo a foto, donde un modelo genera imágenes realistas desde simples dibujos. Para este fin, grandes datasets emparejados son comúnmente
requeridos, lo que no es factible en aplicaciones reales. De este modo, este trabajo estudia
modelos generativos condicionales para la transformación de dibujo a foto, superando la falta
de datasets emparejados mediante un enfoque autosupervisado que produce pares de dibujo
con foto desde un catálogo foco. Nuestro estudio muestra el beneficio del cycle-consistency
loss y las arquitecturas UNet que, junto con la propuesta de generación de un dataset, se
mejora el performance en aplicaciones reales como eCommerce. Nuestros resultados también
muestran la debilidad de DDPMs condicionales para la generación de imágenes que tengan
un parecido con el dibujo input, a pesar de lograr un bajo valor de FID.
Un desafío importante es permitir al usuario controlar el color de salida de la imagen
generada en la transformación de dibujo a foto. Nos aprovechamos del dataset previamente
creado y agregamos paletas de colores para entrenar un nuevo modelo especializado en esta
tarea. Mostramos que es posible implementar un modelo entrenado para este problema y
proponemos un nuevo problema de construcción de un modelo end-to-end.
Nuestro trabajo contribuye a la comunidad de comprensión basada en bocetos, ya que
proponemos un marco para construir con éxito un conjunto de datos condicional para la tarea
de traducción de imagen a imagen. Además, con el modelo propuesto, los usuarios pueden
diseñar nuevos objetos basándose exclusivamente en bocetos. Por otro lado, los e-commerce
pueden aprovechar el input como un nuevo espacio latente para la búsqueda de imágenes.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias, Mención Computación Memoria para optar al título de Ingeniero Civil en Computación
Patrocinador
Parcialmente financiado por National Center for Artificial Intelligence
CENIA FB210017, Basal ANID
Collections
The following license files are associated with this item: