Acelerando el aprendizaje reforzado de políticas de un agente móvil mediante retroalimentación correctiva
Professor Advisor
dc.contributor.advisor
Ruiz del Solar, Javier
Professor Advisor
dc.contributor.advisor
Leiva Castro, Francisco
Author
dc.contributor.author
Brain De la Barra, Valentina Paz
Associate professor
dc.contributor.other
Parra Tsunekawa, Isao
Associate professor
dc.contributor.other
Rivera Serrano, Francisco
Admission date
dc.date.accessioned
2023-01-26T20:00:44Z
Available date
dc.date.available
2023-01-26T20:00:44Z
Publication date
dc.date.issued
2022
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/191815
Abstract
dc.description.abstract
Uno de los grandes desafíos que posee la aplicación del aprendizaje reforzado profundo, es
la falta de eficiencia de muestras durante el entrenamiento de un agente, en otras palabras,
el agente requiere de muchas iteraciones para converger a un comportamiento deseado.
Un enfoque utilizado para lidiar con este problema, es el de acelerar el aprendizaje de un
agente mediante el uso de feedback correctivo junto con el uso de recompensas.
Dada esta situación, se propone en este trabajo el incorporar una señal de retroalimenta-
ción correctiva para mejorar la eficiencia del aprendizaje de la política o comportamiento de
un agente, en particular, la eficiencia de muestras durante su entrenamiento.
Para llevar esto a cabo, se busca implementar un algoritmo híbrido, compuesto por un
algoritmo de aprendizaje reforzado profundo (DDPG) y un algoritmo de aprendizaje de má-
quinas interactivo (D-COACH). Este será empleado sobre un agente robótico móvil, con el
fin de llevar a cabo la tarea de navegación autónoma, más en especifico, la de planificación
local en 2D, en un ambiente de simulación.
El algoritmo híbrido propuesto, se contrasta con los algoritmos utilizados para su cons-
trucción, DDPG y D-COACH, además de un algoritmo secuencial compuesto por ambos.
Se compara la eficiencia de muestras entre estos algoritmos y el desempeño que logra cada
uno, mediante una evaluación sobre el mismo ambiente de entrenamiento y validación en un
ambiente nunca antes visto por el agente.
es_ES
Patrocinador
dc.description.sponsorship
Proyecto FONDECYT 1201170
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States