Aprendizaje por refuerzo para estrategias de apuesta en el Blackjack
Tesis

Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Abeliuk Kimelman, Andrés
Cómo citar
Aprendizaje por refuerzo para estrategias de apuesta en el Blackjack
Author
Professor Advisor
Abstract
Este estudio presenta un análisis exhaustivo del juego de Blackjack, integrando modelamiento matemático avanzado con principios de teoría financiera y aprendizaje por refuerzo, con el objetivo de optimizar estrategias de apuesta bajo condiciones modernas de juego. El análisis se centra en resolver dos problemas fundamentales: la determinación de políticas de juego y la definición de políticas de apuesta. El primero, modelado como un Proceso de Decisión de Markov (PDM), fue resuelto mediante programación dinámica, logrando una evaluación eficiente de la política óptima y la Función de Masa de Probabilidad (FMP) del retorno por ronda. Este resultado permite una base sólida para desarrollar estrategias de apuesta adaptativas y ajustadas al riesgo.
El problema de la política de apuestas, considerablemente más complejo, fue abordado desde múltiples enfoques. Por un lado, se desarrollaron políticas optimizadas mediante programación dinámica bajo simplificaciones específicas, comenzando con el sistema de conteo Hi-Lo y avanzando hacia una composición de variables más representativa del estado completo del juego. Por otro lado, se evaluaron diversas políticas adaptativas mediante aprendizaje por refuerzo, utilizando algoritmos como Deep Q-Networks (DQN) y Proximal Policy Optimization (PPO). Las configuraciones exploradas incluyeron variables clave como el True Count (TC), el patrimonio actual (P), el número de rondas restantes (N), la composición de la baraja (SB), la Función de Masa de Probabilidad (FMP) del retorno (V), su esperanza (EV) y apuestas basadas en el criterio de Kelly.
Un aspecto destacado fue la evaluación del aporte de V como estado, analizando su impacto en la precisión y el rendimiento de las políticas de apuesta. Los resultados indican que, aunque V puede mejorar el desempeño teórico, su cálculo introduce una complejidad computacional significativa. Alternativamente, las políticas basadas en el sistema de conteo Hi-Lo ofrecen una representación compacta y eficiente del estado, lo que las hace más prácticas para escenarios reales.
El análisis incluyó métricas como el Sharpe Ratio, la mediana y el riesgo de ruina para evaluar el desempeño ajustado al riesgo de las políticas propuestas. Además, la comparación con trabajos previos, como el de Liu (2021), evidencia que las estrategias aquí desarrolladas superan enfoques tradicionales, especialmente en condiciones modernas de juego con 8 mazos.
Este estudio no solo contribuye significativamente a la optimización de estrategias de apuesta en Blackjack, sino que también demuestra el potencial del modelamiento matemático y el aprendizaje por refuerzo en la gestión de portafolios y la toma de decisiones bajo incertidumbre, proporcionando un marco robusto para aplicaciones en teoría de inversiones y optimización financiera.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/204812
Collections
The following license files are associated with this item: