Aprendizaje por refuerzo profundo para la optimización de estrategias de paradas en boxes en la Fórmula 1
Tesis

Access note
Acceso abierto
Publication date
2025Metadata
Show full item record
Cómo citar
Thraves Cortés-Monroy, Charles
Cómo citar
Aprendizaje por refuerzo profundo para la optimización de estrategias de paradas en boxes en la Fórmula 1
Author
Professor Advisor
Abstract
La estrategia de paradas en boxes es un factor determinante para el éxito en las carreras de Fórmula 1, un deporte que combina alta tecnología, decisiones en tiempo real y una competencia intensa. Esta investigación propone un modelo basado en aprendizaje por refuerzo profundo para optimizar dichas estrategias, abordando la complejidad inherente de las decisiones estratégicas durante las carreras. Utilizando datos históricos se desarrollaron modelos de predicción de tiempos de vuelta específicos para cada piloto y circuito, considerando escenarios como pista despejada, Safety Car (SC) y Virtual Safety Car (VSC). Estos modelos permiten simular y evaluar diferentes estrategias en función de variables críticas como la degradación de los neumáticos, las interacciones entre pilotos y los eventos imprevistos.\\
El enfoque metodológico integra el uso de algoritmos de optimización de políticas como Proximal Policy Optimization, así como métodos basados en valores como Deep Q-Learning. Además, el diseño del agente de aprendizaje por refuerzo incorpora un espacio de estados que incluye información detallada sobre el compuesto de neumáticos, la vida útil de los mismos, las condiciones de carrera, la posición relativa del piloto y las estrategias de los rivales.\\
Los resultados obtenidos a través de simulaciones mostraron que el agente propuesto supera significativamente a las estrategias convencionales, logrando un equilibrio óptimo entre el número de paradas en boxes y el rendimiento en pista. En particular, los modelos demostraron ser altamente adaptables a situaciones complejas, como cambios repentinos en las condiciones de carrera o la activación de SC y VSC, optimizando tanto el momento de las paradas en boxes como la selección de compuestos de neumáticos. Además, el estudio incluyó la comparación de diferentes funciones de recompensa, lo que permitió identificar aquellas que maximizaban el desempeño del agente en función de las prioridades estratégicas. Este enfoque se presenta como una herramienta para los equipos de Fórmula 1, ofreciendo una ventaja competitiva en la toma de decisiones estratégicas.\\
Este trabajo representa un avance en el campo de la optimización estratégica en deportes de motor, demostrando que el aprendizaje por refuerzo profundo es una herramienta poderosa para resolver problemas dinámicos y complejos en tiempo real.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos Memoria para optar al título de Ingeniero Civil Industrial
Identifier
URI: https://repositorio.uchile.cl/handle/2250/205007
Collections
The following license files are associated with this item: