Metodologías de división de datos selectiva mediante optimización para modelos de aprendizaje de máquinas
Tesis

Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Orchard Concha, Marcos
Cómo citar
Metodologías de división de datos selectiva mediante optimización para modelos de aprendizaje de máquinas
Author
Professor Advisor
Abstract
La revolución digital ha permitido recopilar y almacenar volúmenes de datos sin precedentes,
posicionando a la ciencia de datos y el aprendizaje automático como herramientas indispensables
para extraer información valiosa. No obstante, la gestión eficaz de estos datos sigue siendo un
desafío fundamental. En particular, la partición de los datos en conjuntos de entrenamiento, prueba
y validación es crucial para el éxito de los modelos de aprendizaje automático, ya que permite
evaluar su rendimiento y prevenir el sobreajuste. Tradicionalmente, esta división se realiza de
forma aleatoria, lo cual no siempre garantiza los mejores resultados.
Este trabajo de investigación propone una metodología alternativa basada en la optimización
y la identificación de fronteras topológicas de los datos para una partición más estratégica.
Inspirado en el algoritmo SPlit de Joseph y Vakayil, este enfoque introduce técnicas adicionales,
como autoencoders iterativos, modelos de mixtura Gaussianos (GMM) y algoritmos de
optimización evolutiva, para seleccionar los datos más representativos para cada conjunto. Con
ello, se busca mejorar la representatividad de los datos en cada subconjunto, ofreciendo una
alternativa al enfoque aleatorio convencional.
Dado que la alta dimensionalidad puede afectar negativamente el rendimiento de los
modelos, este trabajo también incorpora técnicas de reducción de dimensionalidad para seleccionar
características relevantes, manteniendo la información útil sin redundancias. Esta estrategia
permite comprimir la información en un espacio latente que maximiza la representatividad de los
datos clave en cada subconjunto de entrenamiento y prueba.
Los resultados obtenidos indican que la división mediante fronteras topológicas ofrece
mejoras en la precisión de la clasificación, optimiza el recall y reduce las diferencias de distribución
entre los conjuntos de entrenamiento y prueba en problemas de clasificación binaria y multiclase.
Además, esta metodología abre nuevos horizontes de investigación, destacando la integración de
la topología de datos y la reducción de dimensionalidad como herramientas para identificar y
seleccionar los datos más relevantes para una partición óptima.
En conclusión, el presente trabajo contribuye significativamente a mejorar la partición de
datos para modelos de aprendizaje automático, ofreciendo un enfoque más robusto y fundamentado
en la estructura de los datos mismos.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos Memoria para optar al título de Ingeniero Civil Eléctrico
Identifier
URI: https://repositorio.uchile.cl/handle/2250/203462
Collections
The following license files are associated with this item: