Data sintética privada, ejecución y evaluaciones de modelos

Villarroel González, Gerardo Jorge

Professor Advisor	dc.contributor.advisor	Abeliuk Kimelman, Andrés
Author	dc.contributor.author	Villarroel González, Gerardo Jorge
Associate professor	dc.contributor.other	Olmedo Berón, Federico
Associate professor	dc.contributor.other	Toro Ipinza, Matías
Associate professor	dc.contributor.other	Buil Aranda, Carlos
Admission date	dc.date.accessioned	2024-08-02T16:46:33Z
Available date	dc.date.available	2024-08-02T16:46:33Z
Publication date	dc.date.issued	2023
Identifier	dc.identifier.other	10.58011/m09k-rg27
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/199902
Abstract	dc.description.abstract	En la era de la información, la generación y análisis de conjuntos de datos es crucial para avanzar en diversas disciplinas. Sin embargo, la privacidad y la utilidad de los datos se han convertido en consideraciones esenciales. Esta tesis aborda estas preocupaciones mediante el desarrollo de un mecanismo para generar conjuntos de datos sintéticos estructurados, que adicionalmente incluyen texto, y su evaluación comparativa con los datos originales. Este estudio es de gran importancia, ya que propone un enfoque práctico para mantener el equilibrio entre la utilidad de los datos y la privacidad de la información personal. Se hace uso de múltiples técnicas y modelos generativos, como Tddpm y Smote, para la creación de estos conjuntos, empleando recursos como los conjuntos de datos de King County y Económicos.cl. Este trabajo también detalla la metodología implementada basada en Synthetic Data Vault (SDV), extendida para permitir fases intermedias de almacenamiento de modelos y resultados de evaluación. En términos de resultados, el estudio reveló la eficacia de los modelos Tddpm y Smote en la generación de datos sintéticos que mostraron similitud con los datos originales. No obstante, se detectaron diferencias notables en aspectos como la cobertura, distribución y privacidad entre los conjuntos de datos generados, uno de los factores analizados corresponde al tratamiento de los valores nulos. Las conclusiones destacan la utilidad y privacidad que ofrece el modelo Tddpm en la generación de datos sintéticos, proporcionando así una importante contribución al campo de la generación de datos sintéticos. Se identifican limitaciones en la metodología actual y se plantean oportunidades para futuras investigaciones, subrayando la creciente importancia de los modelos de generación de texto y la necesidad de evaluar la privacidad en este contexto.	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	Data sintética privada, ejecución y evaluaciones de modelos	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	chb	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil en Computación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Tecnologías de la Información	es_ES

Files in this item

Name:: Data sintetica privada ejecucion ...
Size:: 1.159Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States