A framework for learning continuous actions from corrective advice

Celemin Páez, Carlos Eduardo

Professor Advisor	dc.contributor.advisor	Ruiz del Solar, Javier
Author	dc.contributor.author	Celemin Páez, Carlos Eduardo
Associate professor	dc.contributor.other	Morales Manzanares, Eduardo
Associate professor	dc.contributor.other	Babuska, Robert
Associate professor	dc.contributor.other	Orchard Concha, Marcos
Admission date	dc.date.accessioned	2019-04-15T21:45:58Z
Available date	dc.date.available	2019-04-15T21:45:58Z
Publication date	dc.date.issued	2018
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/168149
General note	dc.description	Doctor en Ingeniería Eléctrica	es_ES
Abstract	dc.description.abstract	Esta tesis presenta un método que permite que usuarios no expertos enseñen agentes a ejecutar tareas complejas durante tiempo de ejecución, con el principal propósito de acelerar la convergencia del aprendizaje y mejorar el desempeño final de las políticas aprendidas. En este sentido, se propone COrrective Advice Communicated by Humans (COACH), un framework interactivo para entrenar políticas con vagas correcciones respecto a las acciones ejecutadas, las cuales son cambios relativos de la magnitud de las acciones que están siendo ejecutadas. Así, los usuarios sugieren correcciones como: incrementar la fuerza, reducir la velocidad, ir más hacia la izquierda, etc. Inicialmente, se propone un esquema de aprendizaje que permite a humanos enseñar políticas de acciones continuas por medio de correcciones correctivas, para problemas de acciones de una dimensión. Se incluye en el framework de aprendizaje un módulo que representa las intenciones del profesor, el cual se basa en la historia pasada de las correcciones. Luego, el framework se extiende a problemas de acciones de más de una dimensión, incluso para casos en los que las correcciones del usuario no están en el mismo espacio de la política. Adicionalmente, el COACH propuesto es combinado con aprendizaje reforzado Policy Search con el fin de obtener la ventajas de ambas fuentes de información (correcciones humanas y funciones de recompensa) en el proceso de aprendizaje. Se proponen dos enfoques híbridos que combinan los dos enfoques, uno secuencial y uno simultáneo. Los resultados muestran que estos esquemas se benefician de las ventajas de cada uno de sus componentes, es decir se obtiene i) rápido progreso al principio del proceso de aprendizaje, y ii) aprendizaje robusto a errores humanos, junto con optimalidad local. Además, este enfoque híbrido es extendido para entrenar primitivas de movimiento. Así, las ventajas previamente mencionadas son extendidas para aprender también políticas representadas como Dynamic Movement Primitives (DMP) y Probabilistic Movement Primitives (ProMP), las cuales son convenientes para aprender trayectorias. El uso del enfoque propuesto es validado en muchos problemas tanto simulados como reales, con variadas características, recorriendo problemas de equilibrio, navegación con robots bípedos en el contexto del fútbol robótico, y también habilidades motoras con brazos robóticos en tareas como escritura de símbolos y el conocido juego "emboque". Los resultados muestran que el conocimiento de los usuarios no expertos puede apalancar procesos de aprendizaje de máquina, guiando hacia desempeños más altos con respecto a otros enfoques de aprendizaje de máquina interactivo y de aprendizaje reforzado, e incluso superando las capacidades de usuarios aprendiendo a tele-operar los agentes. Adicionalmente, los métodos presentados obtienen convergencias las cuales varían desde 3 hasta más de 40 veces más rápido que otras técnicas, dependiendo del problema.	es_ES
Lenguage	dc.language.iso	en	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/	*
Keywords	dc.subject	Robots	es_ES
Keywords	dc.subject	Robótica	es_ES
Keywords	dc.subject	Aprendizaje de máquina	es_ES
Keywords	dc.subject	Aprendizaje por demostración	es_ES
Título	dc.title	A framework for learning continuous actions from corrective advice	es_ES
Document type	dc.type	Tesis
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ingeniería Eléctrica	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES

Files in this item

Name:: A-framework-for-learning-conti ...
Size:: 7.524Mb
Format:: PDF

Name:: TablaConten.pdf
Size:: 85.45Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile