Controllable guidance in reinforcement learning using diffusion models
Tesis

Access note
Acceso abierto
Publication date
2025Metadata
Show full item record
Cómo citar
Tobar Henríquez, Felipe
Cómo citar
Controllable guidance in reinforcement learning using diffusion models
Author
Professor Advisor
Abstract
En este trabajo, exploramos la aplicación de modelos de difusión al aprendizaje por refuerzo offline. En concreto, abordamos el problema del muestreo a partir del producto de una distribución de probabilidad no normalizada con una función escalar. Este problema engloba varios desafíos, incluidos los que se encuentran en el aprendizaje por refuerzo offline. Para abordar este problema, proponemos un método novedoso basado en modelar conjuntamente la distribución de probabilidad y la respectiva función escalar, con el mismo modelo de difusión. Mientras que los métodos anteriores utilizan una red neuronal externa, nuestro método requiere una configuración mínima que aprovecha las representaciones ocultas compartidas en el modelo de difusión. Proporcionamos un método de muestreo que garantiza la obtención de muestras de la distribución objetivo bajo el modelo de difusión óptimo. Evaluamos experimentalmente el método propuesto, demostrando resultados sólidos en el benchmark D4RL. Para introducir el método, presentamos una visión general en profundidad de los modelos de difusión y el aprendizaje por refuerzo, seguida de una revisión exhaustiva de los trabajos relacionados. Esperamos que esta tesis no solo presente las principales contribuciones de nuestro trabajo, sino que también sirva como una introducción a los modelos de difusión y al aprendizaje por refuerzo, así como una revisión exhaustiva de los trabajos fundamentales en este campo.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos
Patrocinador
Este trabajo ha sido parcialmente financiado por FONDECYT regular N° 1210606
Identifier
URI: https://repositorio.uchile.cl/handle/2250/205264
Collections
The following license files are associated with this item: