Metodologías de división de datos selectiva mediante optimización para modelos de aprendizaje de máquinas

La revolución digital ha permitido recopilar y almacenar volúmenes de datos sin precedentes, posicionando a la ciencia de datos y el aprendizaje automático como herramientas indispensables para extraer información valiosa. No obstante, la gestión eficaz de estos datos sigue siendo un desafío fundamental. En particular, la partición de los datos en conjuntos de entrenamiento, prueba y validación es crucial para el éxito de los modelos de aprendizaje automático, ya que permite evaluar su rendimiento y prevenir el sobreajuste. Tradicionalmente, esta división se realiza de forma aleatoria, lo cual no siempre garantiza los mejores resultados. Este trabajo de investigación propone una metodología alternativa basada en la optimización y la identificación de fronteras topológicas de los datos para una partición más estratégica. Inspirado en el algoritmo SPlit de Joseph y Vakayil, este enfoque introduce técnicas adicionales, como autoencoders iterativos, modelos de mixtura Gaussianos (GMM) y algoritmos de optimización evolutiva, para seleccionar los datos más representativos para cada conjunto. Con ello, se busca mejorar la representatividad de los datos en cada subconjunto, ofreciendo una alternativa al enfoque aleatorio convencional. Dado que la alta dimensionalidad puede afectar negativamente el rendimiento de los modelos, este trabajo también incorpora técnicas de reducción de dimensionalidad para seleccionar características relevantes, manteniendo la información útil sin redundancias. Esta estrategia permite comprimir la información en un espacio latente que maximiza la representatividad de los datos clave en cada subconjunto de entrenamiento y prueba. Los resultados obtenidos indican que la división mediante fronteras topológicas ofrece mejoras en la precisión de la clasificación, optimiza el recall y reduce las diferencias de distribución entre los conjuntos de entrenamiento y prueba en problemas de clasificación binaria y multiclase. Además, esta metodología abre nuevos horizontes de investigación, destacando la integración de la topología de datos y la reducción de dimensionalidad como herramientas para identificar y seleccionar los datos más relevantes para una partición óptima. En conclusión, el presente trabajo contribuye significativamente a mejorar la partición de datos para modelos de aprendizaje automático, ofreciendo un enfoque más robusto y fundamentado en la estructura de los datos mismos.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Tesis para optar al grado de Magíster en Ciencia de Datos

Memoria para optar al título de Ingeniero Civil Eléctrico

Identifier

URI: https://repositorio.uchile.cl/handle/2250/203462
DOI: 10.58011/b70h-gf68

Collections