Estimación de incertidumbre en aprendizaje reforzado profundo aplicado a conducción autónoma de vehículos
Professor Advisor
dc.contributor.advisor
Ruiz del Solar, Javier
Author
dc.contributor.author
Espínola Acuña, Jonathan Paul
Associate professor
dc.contributor.other
Leiva Castro, Francisco
Associate professor
dc.contributor.other
Silva Sánchez, Jorge
Admission date
dc.date.accessioned
2025-06-11T14:25:25Z
Available date
dc.date.available
2025-06-11T14:25:25Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/205346
Abstract
dc.description.abstract
Este trabajo propone un modelo denominado Distributional Auto Encoder (DAE) para la estimación de incertidumbre epistémica en el contexto de conducción autónoma mediante aprendizaje reforzado profundo. DAE modela la distribución de probabilidad conjunta del par observación-acción mediante una gaussiana multivariada, permitiendo estimar la incertidumbre de manera independiente del modelo base de toma de decisiones. Esta independencia facilita la optimización separada de ambos componentes (política y estimador de incertidumbre) y permite estimaciones en un solo forward-pass.
El modelo se evalúa en un entorno de conducción simulado, comparándose con Ensemble Randomized Prior Functions (RPF) Dueling Deep Q-Network (D3QN) como baseline. Los experimentos incluyen escenarios específicos de riesgo (vehículo detenido y adelantamiento a alta velocidad) y un análisis sistemático de diferentes umbrales de incertidumbre. La
combinación de DAE con Ensemble RPF D3QN logra un balance efectivo entre seguridad y desempeño, comparable al baseline. Sin embargo, cuando se implementa con D3QN, las mejoras en seguridad vienen acompañadas de una mayor penalización en el desempeño, posiblemente debido a la calidad de los datos de entrenamiento.
Los resultados sugieren que DAE, especialmente en combinación con modelos base bien optimizados, representa un enfoque prometedor para la estimación de incertidumbre en conducción autónoma, aunque se requieren más experimentos para validar completamente su efectividad y robustez.
es_ES
Patrocinador
dc.description.sponsorship
Este trabajo ha sido parcialmente financiado por:
Proyecto FONDECYT 1201170
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States