Show simple item record

Professor Advisordc.contributor.advisorTobar Henríquez, Felipe
Authordc.contributor.authorAlcázar Carrasco, Cristóbal Patricio
Associate professordc.contributor.otherRuiz del Solar, Javier
Associate professordc.contributor.otherFontbona Torres, Joaquín
Admission datedc.date.accessioned2025-01-17T18:20:21Z
Available datedc.date.available2025-01-17T18:20:21Z
Publication datedc.date.issued2024
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/202928
Abstractdc.description.abstractEl Aprendizaje por Refuerzo (RL) se ha convertido en una herramienta crucial para alinear modelos generativos complejos, superando las limitaciones de los métodos de aprendizaje supervisado tradicionales. Su capacidad para optimizar recompensas arbitrarias, incluyendo funciones escalares no diferenciables o retroalimentación humana, es especialmente útil para modelos a gran escala como los Modelos de Lenguaje Grandes (LLMs) y los modelos de difusión. Esta tesis investiga la aplicación de técnicas de RL a modelos de difusión preentrenados, utilizando métodos de gradiente de políticas para adaptar estos modelos a nuevas tareas. Explora cómo los modelos de difusión pueden considerarse agentes que generan muestras para maximizar atributos específicos, como la calidad estética o la compresibilidad, y realiza un análisis empírico de las señales de recompensa a lo largo de las trayectorias de muestra. El trabajo incluye la implementación de algoritmos de optimización de políticas de vanguardia (DDPO) e integra la retroalimentación humana para proporcionar herramientas y perspectivas prácticas. Esta investigación ofrece una ruta para comprender el uso de RL en el ajuste de modelos de difusión preentrenados y proporciona ideas para posibles adaptaciones futuras.es_ES
Abstractdc.description.abstractReinforcement Learning (RL) has become a pivotal tool for aligning complex generative models, addressing the limitations of traditional supervised learning methods. Its capability to optimize arbitrary rewards, including non-differentiable scalar functions or human feedback, is particularly useful for large-scale models such as Large Language Models (LLMs) and diffusion models. This thesis investigates the application of RL techniques to pretrained diffusion models, employing policy gradient methods to adapt these models for new tasks. It explores how diffusion models can be viewed as agents generating samples to maximize specific attributes—–such as aesthetic quality or compressibility—–and conducts an empirical analysis of reward signals over sample trajectories. The work includes the implementation of state-of-the-art policy optimization algorithms (DDPO) and integrates human feedback to provide practical tools and insights. This research offers a pathway for understanding the use of RL in finetuning pretrained diffusion models and provides insights for potential future adaptations.es_ES
Patrocinadordc.description.sponsorshipEste trabajo ha sido parcialmente financiado por: GOOGLE & FONDECYT REGULAR 1210606es_ES
Lenguagedc.language.isoenes_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleExtending reinforcement learning techniques for diffusion modelses_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoEscuela de Postgrado y Educación Continuaes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Ciencias de Datoses_ES


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States