Generative models for translating colored sketches to photorealistic images in the e-commerce context

Sketch-based understanding is involved in human communication and cognitive development, making it essential in visual perception. A specific task in this domain is sketch-to-photo translation, where a model produces realistic images from simple drawings. To this end, large paired training datasets are commonly required, which is impractical in real applications. Thus, this work studies conditional generative models for sketch-to-photo translation, overcoming the lack of training datasets by a self-supervised approach that produces sketch-photo pairs from a target catalog. Our study shows the benefit of cycle-consistency loss and UNet architectures that, together with the proposed dataset generation, improve performance in real applications like eCommerce. Our results also reveal the weakness of conditional DDPMs for generating images resembling the input sketch, even though they achieve a low FID score. A significant challenge is allowing the user to control the output color of the generated image in the sketch-to-photo translation. We leveraged the previously built dataset and added color palettes to train a new model specialized in this task. We show that it is possible to implement a model trained for this task and propose a new problem of building an end-to-end model. Our work contributes to the Sketch-Based understanding community since we propose a framework to successfully build a conditional dataset for the Image to Image translation task. Furthermore, with the proposed model, users can design new objects based on sketches entirely. On the other hand, e-commerces can leverage the input as a new latent space for Image search.

La comprensión basada en bocetos está involucrada en la comunicación humana y en el desarrollo cognitivo, haciéndolo esencial en la percepción visual. Una tarea especifica en este ´ámbito es la transformación de dibujo a foto, donde un modelo genera imágenes realistas desde simples dibujos. Para este fin, grandes datasets emparejados son comúnmente requeridos, lo que no es factible en aplicaciones reales. De este modo, este trabajo estudia modelos generativos condicionales para la transformación de dibujo a foto, superando la falta de datasets emparejados mediante un enfoque autosupervisado que produce pares de dibujo con foto desde un catálogo foco. Nuestro estudio muestra el beneficio del cycle-consistency loss y las arquitecturas UNet que, junto con la propuesta de generación de un dataset, se mejora el performance en aplicaciones reales como eCommerce. Nuestros resultados también muestran la debilidad de DDPMs condicionales para la generación de imágenes que tengan un parecido con el dibujo input, a pesar de lograr un bajo valor de FID. Un desafío importante es permitir al usuario controlar el color de salida de la imagen generada en la transformación de dibujo a foto. Nos aprovechamos del dataset previamente creado y agregamos paletas de colores para entrenar un nuevo modelo especializado en esta tarea. Mostramos que es posible implementar un modelo entrenado para este problema y proponemos un nuevo problema de construcción de un modelo end-to-end. Nuestro trabajo contribuye a la comunidad de comprensión basada en bocetos, ya que proponemos un marco para construir con éxito un conjunto de datos condicional para la tarea de traducción de imagen a imagen. Además, con el modelo propuesto, los usuarios pueden diseñar nuevos objetos basándose exclusivamente en bocetos. Por otro lado, los e-commerce pueden aprovechar el input como un nuevo espacio latente para la búsqueda de imágenes.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Tesis para optar al grado de Magíster en Ciencias, Mención Computación

Memoria para optar al título de Ingeniero Civil en Computación

Patrocinador

Parcialmente financiado por National Center for Artificial Intelligence CENIA FB210017, Basal ANID

Identifier

URI: https://repositorio.uchile.cl/handle/2250/200062
DOI: 10.58011/vsvv-bs31

Collections