Abstract | dc.description.abstract | En el contexto del futbol robótico la toma de decisiones es un problema interesante y complejo de resolver. El objetivo del presente trabajo es desarrollar un algoritmo que permita al robot tomar la decisión de qué hacer cuando está en posesión de la pelota, de modo de mejorar los resultados finales de cada partido. Para esto, se propone un algoritmo de aprendizaje reforzado, el cual mediante la experimentación del mundo, representado por estados, ajuste los parámetros del sistema de modo de maximizar cierta entrada o recompensa.
El problema se modela con un espacio de estados reducido de modo de conseguir una generalización más amplia. Se implementa un algoritmo basado en Q-Learning y otro basado en SARSA, acercamientos levemente distintos de aprendizaje reforzado. Los experimentos consisten en partidos de diez minutos con cuatro jugadores por lado en donde uno de los dos equipos juega utilizando el algoritmo propuesto y el otro utiliza una estrategia estándar. Tanto para Q-Learning como para SARSA se alternan períodos en los que se juega utilizando el algoritmo “puro”, con otros en donde se eligen algunas acciones al azar.
Analizando la diferencia de goles correspondiente a cada período y a cada algoritmo, se puede observar en ambos casos una leve tendencia creciente en la diferencia de goles, sin embargo, esta no es categórica debido a la alta dispersión de los datos. Además, es posible observar como SARSA presenta mejores resultados si se considera los resultados globales, mientras que Q-Learning presenta una tendencia creciente más pronunciada para las pruebas que involucran al algoritmo puro. Los objetivos no se satisfacen completamente, pues después de más de 90 horas de entrenamiento ninguno de los dos algoritmos es capaz de superar a la estrategia estándar. | |