Manipulación móvil mediante aprendizaje reforzado profundo

En los últimos años se ha observado un aumento en el interés de parte de la industria en el desarrollo de plataformas móviles de manipulación, con aplicaciones que van desde el manejo de inventarios de bodegas, robótica de servicio, robots rescatistas, entre otras. Estos sistemas generan un gran interés debido a la gran cantidad de tareas que son capaces de realizar debido a la versatilidad entregada por la movilidad de una base móvil y la destreza de un brazo robótico. Sin embargo varias soluciones actuales desacoplan el sistema, no aprovechando completamente las sinergias entre ambas componentes. Junto también al creciente avance presente en la área del aprendizaje reforzado, nace el interés de abordar el problema de manipulación móvil como un problema de aprendizaje reforzado. En el presente trabajo se estudia la resolución del problema de manipulación móvil, haciendo uso de las herramientas del aprendizaje reforzado, debido a la capacidad que poseen estas herramientas de aprendizaje a la hora de resolver tareas complejas caracterizadas por alta dimensionalidad de estados. En una primera etapa, el problema es separado en sus dos principales tareas, navegación y manipulación. Luego es propuesta y utilizada una arquitectura de un administrador (manager), encargado de la coordinación en la ejecución de las tareas. Se busca que tanto las tareas, como también la coordinación de estás sean aprendidas mediante aprendizaje reforzado. Resultando en tres tareas a resolver mediante aprendizaje reforzado, las cuales son navegación, manipulación y un manager de ambas. La metodología utilizada a lo largo de cada tarea, se basa en primera instancia en la formulación de la tarea como un proceso de decisión de Markov, detallando sus distintas componentes. Luego es desarrollada cada tarea considerando sus condiciones episódicas, la parametrización de políticas y detalles de entrenamiento. Finalmente cada política es entrenada y posteriormente validada tanto en simulación como en el mundo real. Los resultados obtenidos posicionan a la arquitectura propuesta, basada en el aprendizaje de una tarea compleja mediante la combinación de, un administrador (manager) con sub-políticas de bajo nivel obtenidas al resolver las tareas de navegación y manipulación de forma independiente, como una alternativa viable a la hora de resolver la problemática de la manipulación móvil. Donde incluso su potencial aún no se encuentra totalmente estudiado contando con varias componentes que pueden ser mejoradas.

General note

Memoria para optar al título de Ingeniero Civil Eléctrico

Patrocinador

FONDECYT N°1201170

Identifier

URI: https://repositorio.uchile.cl/handle/2250/181741
DOI: 10.58011/7vw3-2e58

Collections