Controllable guidance in reinforcement learning using diffusion models
Professor Advisor
dc.contributor.advisor
Tobar Henríquez, Felipe
Professor Advisor
dc.contributor.advisor
Ruiz del Solar San Martín, Javier
Author
dc.contributor.author
Tagle Montes, Augusto
Associate professor
dc.contributor.other
Fontbona Torres, Joaquín
Admission date
dc.date.accessioned
2025-06-02T20:50:53Z
Available date
dc.date.available
2025-06-02T20:50:53Z
Publication date
dc.date.issued
2025
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/205264
Abstract
dc.description.abstract
En este trabajo, exploramos la aplicación de modelos de difusión al aprendizaje por refuerzo offline. En concreto, abordamos el problema del muestreo a partir del producto de una distribución de probabilidad no normalizada con una función escalar. Este problema engloba varios desafíos, incluidos los que se encuentran en el aprendizaje por refuerzo offline. Para abordar este problema, proponemos un método novedoso basado en modelar conjuntamente la distribución de probabilidad y la respectiva función escalar, con el mismo modelo de difusión. Mientras que los métodos anteriores utilizan una red neuronal externa, nuestro método requiere una configuración mínima que aprovecha las representaciones ocultas compartidas en el modelo de difusión. Proporcionamos un método de muestreo que garantiza la obtención de muestras de la distribución objetivo bajo el modelo de difusión óptimo. Evaluamos experimentalmente el método propuesto, demostrando resultados sólidos en el benchmark D4RL. Para introducir el método, presentamos una visión general en profundidad de los modelos de difusión y el aprendizaje por refuerzo, seguida de una revisión exhaustiva de los trabajos relacionados. Esperamos que esta tesis no solo presente las principales contribuciones de nuestro trabajo, sino que también sirva como una introducción a los modelos de difusión y al aprendizaje por refuerzo, así como una revisión exhaustiva de los trabajos fundamentales en este campo.
es_ES
Patrocinador
dc.description.sponsorship
Este trabajo ha sido parcialmente financiado por FONDECYT regular N° 1210606
es_ES
Lenguage
dc.language.iso
en
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States