Safe sampling for score based models classifier : unguidance with conditional diffusion trajectory correction
Tesis

Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Tobar Henríquez, Felipe
Cómo citar
Safe sampling for score based models classifier : unguidance with conditional diffusion trajectory correction
Author
Professor Advisor
Abstract
Los modelos basados en score (SBM por sus siglas en inglés), también conocidos como modelos de difusión, son considerados de facto como los modelos de estado del arte para generación de imágenes. Pese a su rendimiento sin precedentes los SBMs han estado bajo la lupa por ser capaces de crear contenido "not-safe-for-work" (NSFW), i.e., contenido inapropiado. Esta tesis propone un método alternativo de muestreo para SBMs que implementa un paso de Corrección Condicional de Trayectoria (CTC) para guiar las muestras a regiones de bajo riesgo de contenido NSFW en el espacio ambiente. Más aún, usando Pre-entrenamiento Contrastente Imagen-Texto (CLIP), nuestro método admite clases NSFW que permiten una gran flexibilidad según la configuración. Nuestros experimentos usando el SBM \textit{Stable Diffusion} validan que el muestreo seguro efectivamente reduce la generación de contenido explícito, lo cual fue medido con detectores independientes de imágenes NSFW. Más aún, la corrección propuesta conlleva un costo mínimo en calidad de imagen y un efecto casi nulo en muestras que no necesitan corrección. Estos resultados exhiben el potencial del muestreo seguro y métodos basados en CLIP para alinear SBMs. Score-based generative models (SBM), also known as diffusion models, are the de facto
state of the art for image synthesis. Despite their unparalleled performance, SBMs have recently been in the spotlight for being tricked into creating not-safe-for-work (NSFW) content,
such as violent images and non-consensual nudity. This thesis proposes a Safe sampler for
SBMs implementing a Conditional Trajectory Correction step that guides the samples away
from undesired regions in the ambient space. Furthermore, using Contrastive Language Image Pre-training (CLIP, Radford et al., 2021), our method admits user-defined NSFW classes,
which can vary in different settings. Our experiments on the text-to-image SBM Stable Diffusion (Rombach et al., 2022) validate that the proposed Safe sampler effectively reduces the
generation of explicit violent content, as assessed via independent NSFW detectors. Furthermore, the proposed correction comes at a minor cost in image quality and has an almost null
effect on samples that do not need correction. Our study confirms the suitability of the Safe
sampler towards aligned SBM models.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias de Datos Memoria para optar al título de Ingeniero Civil Matemático
Patrocinador
Este trabajo ha sido parcialmente financiado por:
Fondecyt Regular No 1210606
Identifier
URI: https://repositorio.uchile.cl/handle/2250/203851
Collections
The following license files are associated with this item: