Algorithm for interpretable clustering using Dempster-Shafer theory
Professor Advisor
dc.contributor.advisor
Baloian Tataryan, Nelson
Author
dc.contributor.author
Valdivia Orellana, Ricardo Mauricio
Associate professor
dc.contributor.other
Bravo Márquez, Felipe
Associate professor
dc.contributor.other
Maldonado Flores, Jazmine
Admission date
dc.date.accessioned
2024-10-09T19:10:29Z
Available date
dc.date.available
2024-10-09T19:10:29Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/201445
Abstract
dc.description.abstract
El clustering es un método de aprendizaje no supervisado cuyo objetivo es identificar conjuntos de datos con características similares. La calidad de un modelo de clustering se mide a menudo por su validez en lugar de su precisión, utilizando indicadores como el Índice de Rand y el Coeficiente de Correlación. En los últimos años, ha surgido un interés creciente en crear modelos de clustering no solo válidos, sino también interpretables. La interpretabilidad se refiere a la capacidad del modelo para permitir que un usuario humano comprenda cómo y por qué el modelo llega a un resultado específico.
Los algoritmos de clustering actuales, como el K-means, son populares por su simplicidad y escalabilidad, pero a menudo son considerados como ``cajas negras'' debido a la falta de transparencia en sus resultados. Esto ha llevado a un enfoque creciente en la interpretación de los modelos de clustering y en el desarrollo de técnicas de explicación de modelos, como SHAP (SHapley Additive exPlanations), para proporcionar una interpretación clara de cómo se generan los resultados del clustering.
La solución propuesta en este proyecto es el desarrollo de un algoritmo de clustering que genera etiquetas para los datos y, utilizando el clasificador DS (Dempster-Shafer), produce reglas claras que aseguran la interpretabilidad para los usuarios. El desarrollo se realiza en dos etapas: la selección de etiquetas óptimas para el entrenamiento y la consolidación del algoritmo de clustering, incluyendo el entrenamiento y la predicción del clasificador DS para cada punto de datos.
El algoritmo DSClustering implementado logra una combinación efectiva de técnicas de clustering con interpretación mejorada a través de la generación automática de reglas categóricas y ajustes precisos en el proceso de entrenamiento del clasificador. El algoritmo se destaca por su capacidad para ofrecer resultados de clustering fiables y comprensibles, lo que mejora la transparencia y la confianza en la toma de decisiones basada en los datos. Esta combinación de validez y transparencia en los resultados de clustering representa un avance significativo en el campo del aprendizaje automático.
es_ES
Abstract
dc.description.abstract
Clustering is an unsupervised learning method aimed at identifying data sets with similar
characteristics. The quality of a clustering model is often assessed by its validity rather
than its accuracy, using measures such as the Rand Index and the Correlation Coefficient.
Recently, there has been an increasing interest in creating not only valid but also interpretable
clustering models. Interpretability refers to the model’s ability to enable a human user to
understand the how and why behind the model’s specific outcomes.
Current clustering algorithms, like K-means, are favored for their simplicity and scalability, yet they are often viewed as“black boxe” due to their opaque results. This has led to a
growing focus on understanding and interpreting clustering models, and in developing model
explanation techniques, such as SHAP (SHapley Additive exPlanations), to provide a clear
understanding of how clustering results are produced.
The proposed solution in this project involves the development of a clustering algorithm
that generates labels for data and, using the DS (Dempster-Shafer) classifier, creates clear
rules ensuring interpretability for users. The development occurs in two stages: selecting
optimal labels for training and consolidating the clustering algorithm, including training and
predicting with the DS classifier for each data point.
The implemented DSClustering algorithm achieves an effective combination of clustering techniques with enhanced interpretation through the automatic generation of categorical
rules and precise adjustments in the training process of the classifier. The algorithm stands
out for its ability to provide reliable and comprehensible clustering results, enhancing transparency and trust in data-driven decision-making. This blend of validity and transparency
in clustering outcomes marks a significant advancement in the field of machine learning.
es_ES
Lenguage
dc.language.iso
en
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States