Topological data analysis for classification of noisy and high-dimensional datasets
Tesis

Access note
Acceso abierto
Publication date
2025Metadata
Show full item record
Cómo citar
Hitschfeld Kahler, Nancy
Cómo citar
Topological data analysis for classification of noisy and high-dimensional datasets
Author
Professor Advisor
Abstract
Esta investigación se enfoca en la intersección entre el Análisis Topológico de Datos (TDA), el Aprendizaje Automático/Profundo (ML/DL) y las Estructuras de Datos Compactas, proponiendo que el TDA puede abordar de manera independiente desafíos de clasificación al revelar relaciones multiescala que el ML/DL suele pasar por alto. A lo largo de esta investigación, enfrentamos desafíos computacionales y topológicos. La principal dificultad computacional fue manejar la naturaleza combinatoria y la escalabilidad de los complejos simpliciales, un reto persistente en TDA, especialmente al mantenerlos explícitamente en memoria. Para abordarlo, proponemos algoritmos con distancias generalizadas y desarrollamos una representación compacta basada en símplices maximales para complejos generales y filtrados, reduciendo el uso de memoria entre 13 y 275 veces (comparado con SimplexTree, la estructura de datos de vanguardia en TDA) en conjuntos de datos de alta dimensión como Coauthorship, manteniendo precisión y eficiencia.
A diferencia de los enfoques tradicionales que enriquecen el ML/DL con diagramas de persistencia, nuestro método utiliza homología persistente para seleccionar subcomplejos de una filtración con vecindades simpliciales, extendiendo los grafos de vecinos cercanos para capturar relaciones de alto orden (triángulos en lugar de aristas), abordando un desafío topológico clave. Guiados por un análisis heurístico de la duración de intervalos de persistencia, estos subcomplejos preservan clústeres y huecos que los grafos kNN suelen pasar por alto, permitiendo una clasificación basada únicamente en TDA. Proponemos medidas topológicas para evaluar la relevancia de los símplices e introducimos métodos para la imputación de datos faltantes, TDA con datos parciales, corrección de ruido en etiquetas, selección de características y detección de anomalías, reemplazando los grafos kNN con Complejos Simpliciales de Vecinos Cercanos (NNSC) más expresivos.
Para comparar diagramas de persistencia masivos, introducimos las Pseudodistancias Topológicas Extendidas (ETDs), que equilibran la eficiencia de las estadísticas de persistencia y la fidelidad topológica de las distancias de Wasserstein, demostrando un rendimiento competitivo en tiempo de ejecución y en los benchmarks de clasificación. Validado en Iris, Wine, Breast Cancer, Sphere y Swissroll, nuestro Clasificador Basado en TDA (TDABC) destaca especialmente con clases desbalanceadas y superpuestas, posicionando al TDA como un paradigma independiente dentro del aprendizaje automático topológico. Los esfuerzos futuros se centran en mejorar la selección de subcomplejos, aumentar la escalabilidad y realizar validaciones más amplias.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de doctor en Computación
Patrocinador
Este trabajo ha sido parcialmente financiado por ANID/Doctorado Nacional/2018-21181978
Identifier
URI: https://repositorio.uchile.cl/handle/2250/208969
Collections
topological-data-analysis-for-classification-of-noisy-and-high-dimensional-datasets.pdf (11.05Mb)