Aprendizaje reforzado fuera de línea en control no lineal de estanques
Tesis
Access note
Acceso abierto
Publication date
2022Metadata
Show full item record
Cómo citar
Orchard Concha, Marcos
Cómo citar
Aprendizaje reforzado fuera de línea en control no lineal de estanques
Author
Professor Advisor
Abstract
En la presente tesis se estudia el uso de Random Ensemble Mixture de Deep Q-Network
(REM), método de Reinforcement Lerning (RL) Off-policy en un entorno Offline. El aporte
de esta tesis está en demostrar la factibilidad de utilizar esta metodología sobre bases de datos
construidas por controladores aleatorios sobre una planta no lineal, mejorando la recompensa
promedio. Previamente, se han utilizado algoritmos Off-policy para recorrer de forma efectiva
la cadena de decisión de Markov.
Para mejorar la generalización fuera de línea se utiliza REM, un robusto algoritmo de
Q-learning (aprendizaje de la función de recompensa Q) el cual impone consistencia de las
ecuaciones de Bellman en combinaciones convexas aleatorias de múltiples estimadores de la
función Q.
Como ambiente se utiliza un estanque cónico, representado en un ambiente virtual GYM
(ambiente clásico para probar algoritmos de RL) y simulaciones en Python. Creando con estos tres bases de datos, dos generadas a partir de agentes DQN interactuando con el ambiente
y una generada mediante el control de agentes controladores Proporcional, Integral y Derivativo (PID) sobre las simulaciones en Python. Con estas bases de datos se entrenan agentes,
observando la capacidad de obtener mejores políticas finales y robustez frente a desperfectos
y perturbaciones.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias de la Ingeniería, Mención Eléctrica Memoria para optar al título de Ingeniero Civil Eléctrico
Patrocinador
FONDECYT 1210031
Identifier
URI: https://repositorio.uchile.cl/handle/2250/191230
Collections
The following license files are associated with this item: