Topological data analysis for classification of noisy and high-dimensional datasets

Kindelan Nuñez, Rolando

Tesis

Open/Download

topological-data-analysis-for-classification-of-noisy-and-high-dimensional-datasets.pdf (11.05Mb)

Access note

Acceso abierto

Publication date

2025

Metadata

Show full item record

Cómo citar

Topological data analysis for classification of noisy and high-dimensional datasetsFormato de cita

Copiar

Cerrar

Author

Kindelan Nuñez, Rolando;

Professor Advisor

Abstract

Esta investigación se enfoca en la intersección entre el Análisis Topológico de Datos (TDA), el Aprendizaje Automático/Profundo (ML/DL) y las Estructuras de Datos Compactas, proponiendo que el TDA puede abordar de manera independiente desafíos de clasificación al revelar relaciones multiescala que el ML/DL suele pasar por alto. A lo largo de esta investigación, enfrentamos desafíos computacionales y topológicos. La principal dificultad computacional fue manejar la naturaleza combinatoria y la escalabilidad de los complejos simpliciales, un reto persistente en TDA, especialmente al mantenerlos explícitamente en memoria. Para abordarlo, proponemos algoritmos con distancias generalizadas y desarrollamos una representación compacta basada en símplices maximales para complejos generales y filtrados, reduciendo el uso de memoria entre 13 y 275 veces (comparado con SimplexTree, la estructura de datos de vanguardia en TDA) en conjuntos de datos de alta dimensión como Coauthorship, manteniendo precisión y eficiencia. A diferencia de los enfoques tradicionales que enriquecen el ML/DL con diagramas de persistencia, nuestro método utiliza homología persistente para seleccionar subcomplejos de una filtración con vecindades simpliciales, extendiendo los grafos de vecinos cercanos para capturar relaciones de alto orden (triángulos en lugar de aristas), abordando un desafío topológico clave. Guiados por un análisis heurístico de la duración de intervalos de persistencia, estos subcomplejos preservan clústeres y huecos que los grafos kNN suelen pasar por alto, permitiendo una clasificación basada únicamente en TDA. Proponemos medidas topológicas para evaluar la relevancia de los símplices e introducimos métodos para la imputación de datos faltantes, TDA con datos parciales, corrección de ruido en etiquetas, selección de características y detección de anomalías, reemplazando los grafos kNN con Complejos Simpliciales de Vecinos Cercanos (NNSC) más expresivos. Para comparar diagramas de persistencia masivos, introducimos las Pseudodistancias Topológicas Extendidas (ETDs), que equilibran la eficiencia de las estadísticas de persistencia y la fidelidad topológica de las distancias de Wasserstein, demostrando un rendimiento competitivo en tiempo de ejecución y en los benchmarks de clasificación. Validado en Iris, Wine, Breast Cancer, Sphere y Swissroll, nuestro Clasificador Basado en TDA (TDABC) destaca especialmente con clases desbalanceadas y superpuestas, posicionando al TDA como un paradigma independiente dentro del aprendizaje automático topológico. Los esfuerzos futuros se centran en mejorar la selección de subcomplejos, aumentar la escalabilidad y realizar validaciones más amplias.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Tesis para optar al grado de doctor en Computación

Patrocinador

Este trabajo ha sido parcialmente financiado por ANID/Doctorado Nacional/2018-21181978

Identifier

URI: https://repositorio.uchile.cl/handle/2250/208969

Collections