Extending reinforcement learning techniques for diffusion models
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Tobar Henríquez, Felipe
Cómo citar
Extending reinforcement learning techniques for diffusion models
Professor Advisor
Abstract
El Aprendizaje por Refuerzo (RL) se ha convertido en una herramienta crucial para alinear modelos generativos complejos, superando las limitaciones de los métodos de aprendizaje supervisado tradicionales. Su capacidad para optimizar recompensas arbitrarias, incluyendo funciones escalares no diferenciables o retroalimentación humana, es especialmente útil para modelos a gran escala como los Modelos de Lenguaje Grandes (LLMs) y los modelos de difusión. Esta tesis investiga la aplicación de técnicas de RL a modelos de difusión preentrenados, utilizando métodos de gradiente de políticas para adaptar estos modelos a nuevas tareas. Explora cómo los modelos de difusión pueden considerarse agentes que generan muestras para maximizar atributos específicos, como la calidad estética o la compresibilidad, y realiza un análisis empírico de las señales de recompensa a lo largo de las trayectorias de muestra. El trabajo incluye la implementación de algoritmos de optimización de políticas de vanguardia (DDPO) e integra la retroalimentación humana para proporcionar herramientas y perspectivas prácticas. Esta investigación ofrece una ruta para comprender el uso de RL en el ajuste de modelos de difusión preentrenados y proporciona ideas para posibles adaptaciones futuras. Reinforcement Learning (RL) has become a pivotal tool for aligning complex generative
models, addressing the limitations of traditional supervised learning methods. Its capability to
optimize arbitrary rewards, including non-differentiable scalar functions or human feedback,
is particularly useful for large-scale models such as Large Language Models (LLMs) and
diffusion models. This thesis investigates the application of RL techniques to pretrained
diffusion models, employing policy gradient methods to adapt these models for new tasks.
It explores how diffusion models can be viewed as agents generating samples to maximize
specific attributes—–such as aesthetic quality or compressibility—–and conducts an empirical
analysis of reward signals over sample trajectories. The work includes the implementation
of state-of-the-art policy optimization algorithms (DDPO) and integrates human feedback
to provide practical tools and insights. This research offers a pathway for understanding the
use of RL in finetuning pretrained diffusion models and provides insights for potential future
adaptations.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias de Datos
Patrocinador
Este trabajo ha sido parcialmente financiado por:
GOOGLE & FONDECYT REGULAR 1210606
Identifier
URI: https://repositorio.uchile.cl/handle/2250/202928
Collections
The following license files are associated with this item: