Interactive learning with corrective feedback for continuous-action policies based on deep neural networks

Pérez Dattari, Rodrigo Javier

Professor Advisor	dc.contributor.advisor	Ruiz del Solar, Javier
Author	dc.contributor.author	Pérez Dattari, Rodrigo Javier
Associate professor	dc.contributor.other	Navarro Guerrero, Nicolás
Associate professor	dc.contributor.other	Tobar Henríquez, Felipe
Admission date	dc.date.accessioned	2019-08-07T14:24:49Z
Available date	dc.date.available	2019-08-07T14:24:49Z
Publication date	dc.date.issued	2019
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/170535
General note	dc.description	Tesis para optar al grado de Magíster en Ciencias de la Ingeniería, Mención Eléctrica	es_ES
General note	dc.description	Memoria para optar al título de Ingeniero Civil Eléctrico
Abstract	dc.description.abstract	El Aprendizaje Reforzado Profundo (DRL) se ha transformado en una metodología poderosa para resolver problemas complejos de toma de decisión secuencial. Sin embargo, el DRL tiene varias limitaciones cuando es usado en problemas del mundo real (p.ej. aplicaciones de robótica). Por ejemplo, largos tiempos de entrenamiento (que no se pueden acelerar) son requeridos, en contraste con ambientes simulados, y las funciones de recompensa pueden ser difíciles de especificar/modelar y/o computar. Más aún, el traspaso de políticas aprendidas en simulaciones al mundo real no es directo (\emph{reality gap}). Por otro lado, métodos de aprendizaje de máquinas basados en la transferencia de conocimiento humano a un agente han mostrado ser capaces de obtener políticas con buenos desempeños sin necesariamente requerir el uso de una función de recompensa, siendo eficientes en lo que respecta al tiempo. En este contexto, en esta tesis se introduce una estrategia de Aprendizaje Interactivo de Máquinas (IML) para entrenar políticas modeladas como Redes Neuronales Profundas (DNNs), basada en retroalimentación correctiva humana con un método llamado D-COACH. Se combina Aprendizaje Profundo (DL) con el método Asesoramiento Correctivo Comunicado por Humanos (COACH), en donde humanos no expertos pueden entrenar políticas corrigiendo las acciones que va tomando el agente en ejecución. El método D-COACH tiene el potencial de resolver problemas complejos sin la necesidad de utilizar muchos datos o tiempo. Resultados experimentales validan la eficiencia del método propuesto en plataformas simuladas y del mundo real, en espacios de estados de baja y alta dimensionalidad, mostrando la capacidad de aprender políticas en espacios de acción continuos de manera efectiva. El método propuesto mostró resultados particularmente interesantes cuando políticas parametrizadas con Redes Neuronales Convolucionales (CNNs) fueron usadas para resolver problemas con espacios de estado de alta dimensionalidad, como pixeles desde una imagen. Al usar CNNs, los agentes tienen la capacidad de construir valiosas representaciones del estado del ambiente sin la necesidad de hacer ingeniería de características por el lado del diseñador (lo que era siempre necesario en el Aprendizaje Reforzado (RL) clásico). Estas propiedades pueden ser muy útiles en robótica, ya que es común encontrar aplicaciones en donde la información adquirida por los sensores del sistema es de alta dimensionalidad, como imágenes RGB. Darles la habilidad a los robots de aprender desde datos del alta dimensionalidad va a permitir aumentar la complejidad de los problemas que estos pueden resolver. A lo largo de esta tesis se proponen y validan tres variaciones de D-COACH. La primera introduce una estructura general para resolver problemas de estado de baja y alta dimensionalidad. La segunda propone una variación del primer método propuesto para problemas de estado de alta dimensionalidad, reduciendo el tiempo y esfuerzo de un humano al entrenar una política. Y por último, la tercera introduce el uso de Redes Neuronales Recurrentes para añadirle memoria a los agentes en problemas con observabilidad parcial.	es_ES
Patrocinador	dc.description.sponsorship	FONDECYT 1161500	es_ES
Lenguage	dc.language.iso	en	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/	*
Keywords	dc.subject	Aprendizaje de máquina	es_ES
Keywords	dc.subject	Robótica	es_ES
Keywords	dc.subject	Aprendizaje interactivo	es_ES
Keywords	dc.subject	Toma de decisión secuencial	es_ES
Título	dc.title	Interactive learning with corrective feedback for continuous-action policies based on deep neural networks	es_ES
Document type	dc.type	Tesis
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ingeniería Eléctrica	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES

Files in this item

Name:: Interactive -learning-with-cor ...
Size:: 6.154Mb
Format:: PDF

Name:: TablaConten.pdf
Size:: 82.03Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile