Extending reinforcement learning techniques for diffusion models

El Aprendizaje por Refuerzo (RL) se ha convertido en una herramienta crucial para alinear modelos generativos complejos, superando las limitaciones de los métodos de aprendizaje supervisado tradicionales. Su capacidad para optimizar recompensas arbitrarias, incluyendo funciones escalares no diferenciables o retroalimentación humana, es especialmente útil para modelos a gran escala como los Modelos de Lenguaje Grandes (LLMs) y los modelos de difusión. Esta tesis investiga la aplicación de técnicas de RL a modelos de difusión preentrenados, utilizando métodos de gradiente de políticas para adaptar estos modelos a nuevas tareas. Explora cómo los modelos de difusión pueden considerarse agentes que generan muestras para maximizar atributos específicos, como la calidad estética o la compresibilidad, y realiza un análisis empírico de las señales de recompensa a lo largo de las trayectorias de muestra. El trabajo incluye la implementación de algoritmos de optimización de políticas de vanguardia (DDPO) e integra la retroalimentación humana para proporcionar herramientas y perspectivas prácticas. Esta investigación ofrece una ruta para comprender el uso de RL en el ajuste de modelos de difusión preentrenados y proporciona ideas para posibles adaptaciones futuras.

Reinforcement Learning (RL) has become a pivotal tool for aligning complex generative models, addressing the limitations of traditional supervised learning methods. Its capability to optimize arbitrary rewards, including non-differentiable scalar functions or human feedback, is particularly useful for large-scale models such as Large Language Models (LLMs) and diffusion models. This thesis investigates the application of RL techniques to pretrained diffusion models, employing policy gradient methods to adapt these models for new tasks. It explores how diffusion models can be viewed as agents generating samples to maximize specific attributes—–such as aesthetic quality or compressibility—–and conducts an empirical analysis of reward signals over sample trajectories. The work includes the implementation of state-of-the-art policy optimization algorithms (DDPO) and integrates human feedback to provide practical tools and insights. This research offers a pathway for understanding the use of RL in finetuning pretrained diffusion models and provides insights for potential future adaptations.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Tesis para optar al grado de Magíster en Ciencias de Datos

Patrocinador

Este trabajo ha sido parcialmente financiado por: GOOGLE & FONDECYT REGULAR 1210606

Identifier

URI: https://repositorio.uchile.cl/handle/2250/202928
DOI: 10.58011/2gb7-ka47

Collections