Generative-models-for-translating-colored-sketches-to-photorealistic-images-in-the-e-commerce-context
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Saavedra Rondo, José Manuel
Cómo citar
Generative-models-for-translating-colored-sketches-to-photorealistic-images-in-the-e-commerce-context
Author
Professor Advisor
Abstract
Sketch-based understanding is involved in human communication and cognitive development, making it essential in visual perception. A specific task in this domain is sketch-to-photo translation, where a model produces realistic images from simple drawings. To this end, large paired training datasets are commonly required, which is impractical in real applications.
Thus, this work studies conditional generative models for sketch-to-photo translation, overcoming the lack of training datasets by a self-supervised approach that produces sketch-photo pairs from a target catalog. Our study shows the benefit of cycle-consistency loss and UNet architectures that, together with the proposed dataset generation, improve performance in real applications like eCommerce. Our results also reveal the weakness of conditional DDPMs for generating images resembling the input sketch, even though they achieve a low FID score. A significant challenge is allowing the user to control the output color of the generated image in the sketch-to-photo translation. We leveraged the previously built dataset and added color palettes to train a new model specialized in this task. We show that it is possible to implement a model trained for this task and propose a new problem of building an end-to-end model.
Our work contributes to the Sketch-Based understanding community since we propose a framework to successfully build a conditional dataset for the Image to Image translation task. Furthermore, with the proposed model, users can design new objects based on sketches entirely. On the other hand, e-commerces can leverage the input as a new latent space for Image search. La comprensi´on basada en bocetos est´a involucrada en la comunicaci´on humana y en el
desarrollo cognitivo, haci´endolo esencial en la percepci´on visual. Una tarea especifica en
este ´ambito es la transformaci´on de dibujo a foto, donde un modelo genera im´agenes realistas desde simples dibujos. Para este fin, grandes datasets emparejados son com´unmente
requeridos, lo que no es factible en aplicaciones reales. De este modo, este trabajo estudia
modelos generativos condicionales para la transformaci´on de dibujo a foto, superando la falta
de datasets emparejados mediante un enfoque autosupervisado que produce pares de dibujo
con foto desde un cat´alogo foco. Nuestro estudio muestra el beneficio del cycle-consistency
loss y las arquitecturas UNet que, junto con la propuesta de generaci´on de un dataset, se
mejora el performance en aplicaciones reales como eCommerce. Nuestros resultados tambi´en
muestran la debilidad de DDPMs condicionales para la generaci´on de im´agenes que tengan
un parecido con el dibujo input, a pesar de lograr un bajo valor de FID.
Un desaf´ıo importante es permitir al usuario controlar el color de salida de la imagen
generada en la transformaci´on de dibujo a foto. Nos aprovechamos del dataset previamente
creado y agregamos paletas de colores para entrenar un nuevo modelo especializado en esta
tarea. Mostramos que es posible implementar un modelo entrenado para este problema y
proponemos un nuevo problema de construcci´on de un modelo end-to-end.
Nuestro trabajo contribuye a la comunidad de comprensi´on basada en bocetos, ya que
proponemos un marco para construir con ´exito un conjunto de datos condicional para la tarea
de traducci´on de imagen a imagen. Adem´as, con el modelo propuesto, los usuarios pueden
dise˜nar nuevos objetos bas´andose exclusivamente en bocetos. Por otro lado, los e-commerce
pueden aprovechar el input como un nuevo espacio latente para la b´usqueda de im´agenes.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias, Mención Computación Memoria para optar al título de Ingeniero Civil en Computación
Patrocinador
Parcialmente financiado por National Center for Artificial Intelligence
CENIA FB210017, Basal ANID
Identifier
URI: https://repositorio.uchile.cl/handle/2250/200062
Collections
The following license files are associated with this item: