Reinforcement learning enhanced generative replay for continual learning in diffusion models: a comprehensive study of existing and novel methodologies
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Tobar Henríquez, Felipe
Cómo citar
Reinforcement learning enhanced generative replay for continual learning in diffusion models: a comprehensive study of existing and novel methodologies
Professor Advisor
Abstract
Los modelos generativos de difusión han demostrado capacidades notables en la gen-
eración de datos artificiales de alta calidad en diversas áreas, tales como imágenes, proteínas
y materiales. Sin embargo, estos modelos enfrentan desafíos significativos en escenarios de
Aprendizaje Continuo, donde deben aprender de forma continuada distribuciones de datos
en evolución mientras preservan la información aprendida en etapas anteriores.
Esta tesis investiga la mejora de los modelos de difusión en Aprendzaje Continuo a través
de estrategias de repetición generativa. Los objetivos principales incluyen una evaluación ex-
haustiva de las estrategias existentes de Aprendizaje Continuo y el desarrollo de metodologías
novedosas aprovechando el Aprendizaje Reforzado, específicamente utilizando Denoising Dif-
fusion Policy Optimization (DDPO). Aprovechando esta metodología, proponemos dos mar-
cos de entrenamiento: un enfoque directo y un marco de profesor-estudiante orientado a
mejorar la estabilidad del entrenamiento en Aprendizaje Continuo de estos modelos de di-
fusión.
A través de variados experimentos, replicamos con éxito metodologías existentes y es-
tablecimos puntos de referencia claros con los cuales comparar las metodologías. Nuestras
nuevas propuestas, en particular la repetición generativa mejorada con DDPO, demostraron
mejoras significativas en la calidad de las muestras sintéticas generadas y la retención de tar-
eas previamente aprendidas en Aprendizaje Continuo. El marco profesor-estudiante mejoró
aún más el rendimiento al separar efectivamente las tareas de entrenamiento, enfocándose
en aprender mejores representaciones de datos en el modelo profesor y evitando la so-
breparametrización en el modelo estudiante.
Nuestros hallazgos indican que el Aprendizaje Reforzado puede mejorar significativamente
las capacidades de Aprendizaje Continuo de los modelos de difusión. Sin embargo, el éxito
de estos métodos depende en gran medida de la calidad de las funciones de recompensas
utilizadas. En el futuro se debería explorar recompensa más sofisticadas y estrategias alter-
nativas de Aprendizaje Reforzado para mejorar aún más el rendimiento y la diversidad de
los modelos generativos.
Esta investigación contribuye al avance de los modelos generativos, extendiendo su apli-
cabilidad y eficacia en entornos que requieren aprendizaje continuo. Generative diffusion models have shown remarkable capabilities in synthesizing high quality data across various domains, such as images, proteins, and materials. However, these
models face significant challenges in continual learning scenarios, where they must continuously learn from evolving data distributions while preserving previously learned information.
This thesis investigates the enhancement of generative diffusion models through generative replay in continual learning. The main objectives include a comprehensive evaluation of
existing continual learning strategies and the development of novel methodologies leveraging Reinforcement Learning, specifically Denoising Diffusion Policy Optimization (DDPO).
Leveraging this methodology, we propose two frameworks for training: a direct approach and
a teacher-student framework aimed at improving the stability of training continually these
generative diffusion models.
Through extensive experiments, we successfully replicated existing methodologies and
established clear benchmarks. Our novel approaches, particularly the DDPO enhanced generative replay, demonstrated significant improvements in sample quality and retention of
previously learned tasks. The teacher-student framework further enhanced performance by
effectively separating training tasks, focusing on learning better data representations in the
teacher model and avoiding overparameterization in the student model.
Our findings indicate that Reinforcement Learning can significantly improve the continual learning capabilities of diffusion models. However, the success of these methods heavily
depends on the quality of the reward model. Future work should explore more sophisticated
reward functions and alternative reinforcement learning strategies to further enhance the
performance and diversity of generative models.
This research contributes to the advancement of generative models, extending their applicability and efficacy in settings that require continual learning.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias de Datos Memoria para optar al título de Ingeniero Civil Eléctrico
Patrocinador
Este trabajo ha sido financiado por Fondecyt Regular No1210606
Identifier
URI: https://repositorio.uchile.cl/handle/2250/202603
Collections
The following license files are associated with this item: