Diseño de un modelo de generación de datos sintéticos para la aplicación de modelos de machine learning en proyectos interdisciplinarios asociados a salud

Marshall Boehmwald, Fernando

Professor Advisor	dc.contributor.advisor	Velásquez Silva, Juan Domingo
Author	dc.contributor.author	Marshall Boehmwald, Fernando
Associate professor	dc.contributor.other	Ruiz Moreno, Rocío Belén
Associate professor	dc.contributor.other	Hernández Martínez, Víctor Alejandro
Admission date	dc.date.accessioned	2022-10-21T15:53:58Z
Available date	dc.date.available	2022-10-21T15:53:58Z
Publication date	dc.date.issued	2022
Identifier	dc.identifier.other	10.58011/e5em-c336
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/188774
Abstract	dc.description.abstract	Generar conocimiento en base a la evidencia en investigaciones clínicas es muchas veces un proceso lento, costoso y complejo. Dentro de los problemas a los que se enfrentan investigadoras e investigadores del rubro, está el bajo número de participantes en los experimentos, dada la dificultad de encontrar pacientes y el alto costo monetario y temporal de generar un nuevo registro. Esta escasez de información complejiza el trabajo estadístico, evitando la generalización de los resultados que se obtienen, dificultando la obtención de conclusiones aceptables que puedan ser aplicadas a la población. Actualmente es posible solucionar parcialmente la escasez de información utilizando datos de libre acceso, modelos más sencillos o aplicar distintas transformaciones a las fuentes de información. Sin embargo, ninguna de estas soluciones les permite a los investigadores e investigadoras utilizar todo el potencial de los datos que manejan. Con el fin de entregar recomendaciones para resolver los problemas asociados a la escasez de datos en proyectos de aprendizaje de máquinas asociados a salud, en el presente trabajo de título se realizó un estudio de los algoritmos generadores de datos sintéticos más utilizados en la literatura para datos tabulares, basándose en los registros del proyecto Alzheimer Depression Diagnostic with Artificial Intelligence del Web Intelligence Centre. Se aplicaron tres algoritmos generativos en esta oportunidad, Generative Adversarial Networks, Variational Autoencoders y Gaussian Copula, siendo los dos primeros algoritmos de redes neuronales y el tercero un algoritmo estadístico. Ningún algoritmo obtuvo mejores resultados al entrenar un modelo de clasificación en comparación con los datos reales, sin embargo, los mejores resultados provienen del algoritmo Gaussian Copula, presentando una diferencia de -9% y -5% para las métricas Recall y ROC AUC respectivamente al sólo utilizar datos sintéticos para el entrenamiento y otra de -18,5% y -13,5% en Recall y ROC AUC al unir los datos sintéticos y reales, todos estos resultados fueron obtenidos testeando dichos modelos con la información real de los pacientes. No fue posible probar distintos tipos de bases de datos, ya que todas poseían las mismas características; una variable binaria y varias variables numéricas. No obstante, los algoritmos que utilizan redes neuronales presentaron mejores resultados cuando las bases tenían una mayor cantidad de variables.	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Keywords	dc.subject	Aprendizaje de máquina
Keywords	dc.subject	Redes neuronales (Ciencia de la computación)
Keywords	dc.subject	Salud - Investigaciones
Keywords	dc.subject	Datos sintéticos
Keywords	dc.subject	Generación de datos
Título	dc.title	Diseño de un modelo de generación de datos sintéticos para la aplicación de modelos de machine learning en proyectos interdisciplinarios asociados a salud	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ingeniería Industrial	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil Industrial	es_ES
uchile.gradoacademico	uchile.gradoacademico	Licenciado	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria pra optar al título de Ingeniero Civil Industrial	es_ES

Files in this item

Name:: Diseno-de-un-modelo-de-generac ...
Size:: 1.810Mb
Format:: PDF

Name:: TablaConten.pdf
Size:: 125.4Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States