Reinforcement Learning para problema de planificación forestal con incertidumbre en precios y demandas
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Weintraub Pohorille, Andrés
Cómo citar
Reinforcement Learning para problema de planificación forestal con incertidumbre en precios y demandas
Author
Professor Advisor
Abstract
Esta tesis aborda la aplicación del Aprendizaje por Refuerzo (Reinforcement Learning,
RL) en la planificación de la cosecha forestal bajo condiciones de incertidumbre, un problema estocástico de alta dimensionalidad. Se centra en la variante de programación estocástica
multietapa para la cosecha de celdas en un área forestal, caracterizada por decisiones secuenciales adaptativas frente a incertidumbres como fluctuaciones en los precios de la madera y
la demanda del mercado, modeladas mediante un árbol de escenarios.
El trabajo se enfoca en implementar y analizar técnicas avanzadas de RL, comparándolas
con métodos tradicionales de optimización bajo incertidumbre. Se utilizan algoritmos como
Deep Q-Networks (DQN), Dueling DQN, Double Dueling DQN y Proximal Policy Optimization (PPO), adaptándolos al contexto específico de la planificación forestal. Se busca evaluar
la efectividad, eficiencia computacional y escalabilidad de estas técnicas en el sector, así como
su robustez ante diferentes escenarios estocásticos.
El enfoque metodológico incluye una revisión exhaustiva de la literatura en RL y su aplicación en problemas de alta dimensionalidad, una formulación detallada del problema forestal
adaptado para RL y el diseño e implementación de los algoritmos mencionados. Se realizan
experimentos y análisis para probar la viabilidad de RL en este contexto, destacando la capacidad de estas técnicas para adaptarse a la variabilidad y la incertidumbre inherentes a la
planificación forestal.
Los hallazgos subrayan la complejidad de aplicar RL en ambientes estocásticos, resaltando la necesidad de un diseño cuidadoso de la función de recompensa, el equilibrio entre
exploración y explotación, y la precisión en la estimación de funciones de valor. Futuras investigaciones deberían enfocarse en mejorar la función de recompensa, refinar la búsqueda de
hiperparámetros y explorar nuevas estructuras de redes neuronales para abordar la dinámica
estocástica del problema.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Gestión de Operaciones Memoria para optar al título de Ingeniero Civil Industrial
Patrocinador
Fondecyt 1220893/2023
Identifier
URI: https://repositorio.uchile.cl/handle/2250/199665
Collections
The following license files are associated with this item: