Metodologías de división de datos selectiva mediante optimización para modelos de aprendizaje de máquinas
Professor Advisor
dc.contributor.advisor
Orchard Concha, Marcos
Author
dc.contributor.author
Gatica Oyarzún, Nicolás Daniel
Associate professor
dc.contributor.other
Jaramillo Montoya, Francisco
Associate professor
dc.contributor.other
Ruiz del Solar, Javier
Admission date
dc.date.accessioned
2025-03-11T19:47:43Z
Available date
dc.date.available
2025-03-11T19:47:43Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/203462
Abstract
dc.description.abstract
La revolución digital ha permitido recopilar y almacenar volúmenes de datos sin precedentes,
posicionando a la ciencia de datos y el aprendizaje automático como herramientas indispensables
para extraer información valiosa. No obstante, la gestión eficaz de estos datos sigue siendo un
desafío fundamental. En particular, la partición de los datos en conjuntos de entrenamiento, prueba
y validación es crucial para el éxito de los modelos de aprendizaje automático, ya que permite
evaluar su rendimiento y prevenir el sobreajuste. Tradicionalmente, esta división se realiza de
forma aleatoria, lo cual no siempre garantiza los mejores resultados.
Este trabajo de investigación propone una metodología alternativa basada en la optimización
y la identificación de fronteras topológicas de los datos para una partición más estratégica.
Inspirado en el algoritmo SPlit de Joseph y Vakayil, este enfoque introduce técnicas adicionales,
como autoencoders iterativos, modelos de mixtura Gaussianos (GMM) y algoritmos de
optimización evolutiva, para seleccionar los datos más representativos para cada conjunto. Con
ello, se busca mejorar la representatividad de los datos en cada subconjunto, ofreciendo una
alternativa al enfoque aleatorio convencional.
Dado que la alta dimensionalidad puede afectar negativamente el rendimiento de los
modelos, este trabajo también incorpora técnicas de reducción de dimensionalidad para seleccionar
características relevantes, manteniendo la información útil sin redundancias. Esta estrategia
permite comprimir la información en un espacio latente que maximiza la representatividad de los
datos clave en cada subconjunto de entrenamiento y prueba.
Los resultados obtenidos indican que la división mediante fronteras topológicas ofrece
mejoras en la precisión de la clasificación, optimiza el recall y reduce las diferencias de distribución
entre los conjuntos de entrenamiento y prueba en problemas de clasificación binaria y multiclase.
Además, esta metodología abre nuevos horizontes de investigación, destacando la integración de
la topología de datos y la reducción de dimensionalidad como herramientas para identificar y
seleccionar los datos más relevantes para una partición óptima.
En conclusión, el presente trabajo contribuye significativamente a mejorar la partición de
datos para modelos de aprendizaje automático, ofreciendo un enfoque más robusto y fundamentado
en la estructura de los datos mismos.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States