Interpretable method for general classification using Dempster-Shafer theory

Los modelos de aprendizaje supervisado han logrado resolver problemas con gran precisión en varias ámbitos como la medicina, el transporte y el financiero. Sin embargo, la mayoría de estos métodos se comportan como cajas negras para los usuarios y no explican las decisiones que realizan. Esto genera una desconfianza en los modelos y en muchas ocasiones no pueden ser utilizados porque pueden generar sesgo y discriminación en la predicción. Experimentalmente, se observa que los métodos con mayor interpretabilidad como árboles de decisión, son los que tienen errores en la predicción más altos. En esta tesis, se plantea un nuevo modelo de clasificación interpretable basado en la Teoría de Dempster Shafer (TDS) y el método de descenso de gradiente (DG). Se espera que el modelo sea tan interpretable como los Árboles de Decisión y a la vez tenga una precisión comparable a los métodos tradicionales. El modelo está basado en reglas, las cuales consisten en afirmaciones que pueden ser entendidas con facilidad y permiten trabajar con datos incompletos o inciertos. Mediante un conjunto de datos de entrenamiento y DG los valores de estas reglas son optimizados para obtener el modelo óptimo. Una vez que el modelo está entrenado, los valores de las reglas nos indican que tan importantes son para la predicción de cada clase, y por lo tanto, se puede extraer conocimiento interpretable directamente del modelo. El modelo fue probado en escenarios controlados y conjuntos de datos tradicionales para verificar que pudiera resolver problemas de clasificación simples. El modelo mostró ser capaz de resolver todos los problemas de forma correcta. Además, al ser comparado con otros métodos de clasificación se puede observar que alcanza valores de precisión similares. Finalmente, el modelo fue probado en un problema real de predicción de riesgo de tener un ataque cerebrovascular (ACV). Se cuenta con datos de más de 27 mil pacientes japoneses provenientes de chequeos médicos anuales. Entre los datos se tienen resultados de exámenes, datos demográficos e historial de enfermedades. El modelo obtuvo un área bajo la curva Característica Operativa del Receptor (ROC) de 87.5\% superando a otros métodos de clasificación y a otros métodos de detección de ACV. Además, se lograron extraer las reglas más influyentes para la predicción de ACV. Estos resultados fueron validados con otros métodos de interpretabilidad, con literatura médica y con una encuesta a expertos médicos. La mayoría de las reglas que nuestro modelo encontró coinciden con el conocimiento experto real del área de la aplicación.

General note

Tesis para optar al grado de Magíster en Ciencias, Mención Computación

Memoria para optar al título de Ingeniero Civil en Computación

Patrocinador

Conicyt (Chile) No 22180506

Identifier

URI: https://repositorio.uchile.cl/handle/2250/177533

Collections