Extending reinforcement learning techniques for diffusion models
Professor Advisor
dc.contributor.advisor
Tobar Henríquez, Felipe
Author
dc.contributor.author
Alcázar Carrasco, Cristóbal Patricio
Associate professor
dc.contributor.other
Ruiz del Solar, Javier
Associate professor
dc.contributor.other
Fontbona Torres, Joaquín
Admission date
dc.date.accessioned
2025-01-17T18:20:21Z
Available date
dc.date.available
2025-01-17T18:20:21Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/202928
Abstract
dc.description.abstract
El Aprendizaje por Refuerzo (RL) se ha convertido en una herramienta crucial para alinear modelos generativos complejos, superando las limitaciones de los métodos de aprendizaje supervisado tradicionales. Su capacidad para optimizar recompensas arbitrarias, incluyendo funciones escalares no diferenciables o retroalimentación humana, es especialmente útil para modelos a gran escala como los Modelos de Lenguaje Grandes (LLMs) y los modelos de difusión. Esta tesis investiga la aplicación de técnicas de RL a modelos de difusión preentrenados, utilizando métodos de gradiente de políticas para adaptar estos modelos a nuevas tareas. Explora cómo los modelos de difusión pueden considerarse agentes que generan muestras para maximizar atributos específicos, como la calidad estética o la compresibilidad, y realiza un análisis empírico de las señales de recompensa a lo largo de las trayectorias de muestra. El trabajo incluye la implementación de algoritmos de optimización de políticas de vanguardia (DDPO) e integra la retroalimentación humana para proporcionar herramientas y perspectivas prácticas. Esta investigación ofrece una ruta para comprender el uso de RL en el ajuste de modelos de difusión preentrenados y proporciona ideas para posibles adaptaciones futuras.
es_ES
Abstract
dc.description.abstract
Reinforcement Learning (RL) has become a pivotal tool for aligning complex generative
models, addressing the limitations of traditional supervised learning methods. Its capability to
optimize arbitrary rewards, including non-differentiable scalar functions or human feedback,
is particularly useful for large-scale models such as Large Language Models (LLMs) and
diffusion models. This thesis investigates the application of RL techniques to pretrained
diffusion models, employing policy gradient methods to adapt these models for new tasks.
It explores how diffusion models can be viewed as agents generating samples to maximize
specific attributes—–such as aesthetic quality or compressibility—–and conducts an empirical
analysis of reward signals over sample trajectories. The work includes the implementation
of state-of-the-art policy optimization algorithms (DDPO) and integrates human feedback
to provide practical tools and insights. This research offers a pathway for understanding the
use of RL in finetuning pretrained diffusion models and provides insights for potential future
adaptations.
es_ES
Patrocinador
dc.description.sponsorship
Este trabajo ha sido parcialmente financiado por:
GOOGLE & FONDECYT REGULAR 1210606
es_ES
Lenguage
dc.language.iso
en
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States