Optimización de operaciones de compraventa de uso mediante el uso de metodologías de aprendizaje por refuerzo
Tesis

Access note
Acceso abierto
Publication date
2022Metadata
Show full item record
Cómo citar
Bergel, Alexandre
Cómo citar
Optimización de operaciones de compraventa de uso mediante el uso de metodologías de aprendizaje por refuerzo
Author
Professor Advisor
Abstract
El presente proyecto de tesis tuvo por objetivo el estudio de metodologías de aprendizaje por refuerzo (RL) y la evaluación de su aplicabilidad a la toma de decisiones financieras, considerando los beneficios, dificultades y consecuencias de estas mediante una resolución algorítmica y automatizada.
El aprendizaje por refuerzo corresponde a un área del aprendizaje de máquina donde se calibra un comportamiento de forma autónoma en base a recompensas y penalizaciones experimentadas en estados de una realidad.
La problemática que se buscó analizar, y sobre la cual se aplicaron las metodologías estudiadas, consistió en la fragmentación de la forma más rentable del volumen de compraventa de dólares estadounidenses en el mercado local por parte de una institución financiera, esto con el objetivo de mitigar el impacto de sus operaciones en el precio y así evitar pérdidas ocasionadas en posteriores transacciones efectuadas a un valor menos beneficioso.
Se modeló el precio del dólar (USDCLP) y se programó un agente algorítmico para ejecutar decisiones de compra y venta de la divisa, considerando los riesgos y retornos de las operaciones con el objetivo de maximizar su utilidad. Estas decisiones se calibraron en base a la experiencia y aprendizaje autónomo del agente, las que de forma acumulada permitieron determinar una política óptima de compraventa de dólares.
La política óptima de decisiones se generó mediante modelos basados en los métodos de Q-Learning y SARSA, algoritmos de RL a los que se les instauró el impacto de una decisión presente sobre un posible estado venidero.
Complementariamente se aplicó una metodología que permitiese generar precios futuros del USDCLP en base a fundamentos económicos y empíricos, como también una métrica que cuantificase el riesgo de mercado y su exposición frente a las decisiones del algoritmo.
Se ejecutó el modelo en un escenario hipotético, simplificado, durante un periodo de tiempo definido y con finita cantidad de dólares a ser transados, simulando una jornada de actividades financieras cotidianas con el objetivo de analizar su desempeño. El algoritmo proveyó una política óptima constituida por la cantidad de dólares a comprar o vender para cada configuración de tiempo, precio de la divisa y nivel de inventario de los estados remanentes.
De los resultados, estos demuestran la viabilidad del uso de metodologías de RL en la problemática bajo estudio. La algorítmica evidencia su capacidad de aprendizaje frente a estrategias convencionales al identificar decisiones favorables de forma consistente, alcanzando a su vez mayores beneficios. Si bien el modelo desarrollado corresponde a una prueba de concepto sobre su potencial aplicación a la industria financiera local, permite de forma favorable secundar las percepciones de una alternativa válida para disminuir los tiempos de análisis, como también explorar y descubrir decisiones desapercibidas por los analistas.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesia para optar al grado de Magíster en Tecnologías de la Información
Collections
The following license files are associated with this item: