Show simple item record

Professor Advisordc.contributor.advisorOrchard Concha, Marcos
Authordc.contributor.authorGatica Oyarzún, Nicolás Daniel
Associate professordc.contributor.otherJaramillo Montoya, Francisco
Associate professordc.contributor.otherRuiz del Solar, Javier
Admission datedc.date.accessioned2025-03-11T19:47:43Z
Available datedc.date.available2025-03-11T19:47:43Z
Publication datedc.date.issued2024
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/203462
Abstractdc.description.abstractLa revolución digital ha permitido recopilar y almacenar volúmenes de datos sin precedentes, posicionando a la ciencia de datos y el aprendizaje automático como herramientas indispensables para extraer información valiosa. No obstante, la gestión eficaz de estos datos sigue siendo un desafío fundamental. En particular, la partición de los datos en conjuntos de entrenamiento, prueba y validación es crucial para el éxito de los modelos de aprendizaje automático, ya que permite evaluar su rendimiento y prevenir el sobreajuste. Tradicionalmente, esta división se realiza de forma aleatoria, lo cual no siempre garantiza los mejores resultados. Este trabajo de investigación propone una metodología alternativa basada en la optimización y la identificación de fronteras topológicas de los datos para una partición más estratégica. Inspirado en el algoritmo SPlit de Joseph y Vakayil, este enfoque introduce técnicas adicionales, como autoencoders iterativos, modelos de mixtura Gaussianos (GMM) y algoritmos de optimización evolutiva, para seleccionar los datos más representativos para cada conjunto. Con ello, se busca mejorar la representatividad de los datos en cada subconjunto, ofreciendo una alternativa al enfoque aleatorio convencional. Dado que la alta dimensionalidad puede afectar negativamente el rendimiento de los modelos, este trabajo también incorpora técnicas de reducción de dimensionalidad para seleccionar características relevantes, manteniendo la información útil sin redundancias. Esta estrategia permite comprimir la información en un espacio latente que maximiza la representatividad de los datos clave en cada subconjunto de entrenamiento y prueba. Los resultados obtenidos indican que la división mediante fronteras topológicas ofrece mejoras en la precisión de la clasificación, optimiza el recall y reduce las diferencias de distribución entre los conjuntos de entrenamiento y prueba en problemas de clasificación binaria y multiclase. Además, esta metodología abre nuevos horizontes de investigación, destacando la integración de la topología de datos y la reducción de dimensionalidad como herramientas para identificar y seleccionar los datos más relevantes para una partición óptima. En conclusión, el presente trabajo contribuye significativamente a mejorar la partición de datos para modelos de aprendizaje automático, ofreciendo un enfoque más robusto y fundamentado en la estructura de los datos mismos.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleMetodologías de división de datos selectiva mediante optimización para modelos de aprendizaje de máquinases_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoEscuela de Postgrado y Educación Continuaes_ES
Departmentuchile.departamentoDepartamento de Ingeniería Civil Eléctrica
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Ciencia de Datoses_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al título de Ingeniero Civil Eléctrico


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States