Data sintética privada, ejecución y evaluaciones de modelos
Professor Advisor
dc.contributor.advisor
Abeliuk Kimelman, Andrés
Author
dc.contributor.author
Villarroel González, Gerardo Jorge
Associate professor
dc.contributor.other
Olmedo Berón, Federico
Associate professor
dc.contributor.other
Toro Ipinza, Matías
Associate professor
dc.contributor.other
Buil Aranda, Carlos
Admission date
dc.date.accessioned
2024-08-02T16:46:33Z
Available date
dc.date.available
2024-08-02T16:46:33Z
Publication date
dc.date.issued
2023
Identifier
dc.identifier.other
10.58011/m09k-rg27
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/199902
Abstract
dc.description.abstract
En la era de la información, la generación y análisis de conjuntos de datos es crucial para avanzar en diversas disciplinas. Sin embargo, la privacidad y la utilidad de los datos se han convertido
en consideraciones esenciales. Esta tesis aborda estas preocupaciones mediante el desarrollo de un
mecanismo para generar conjuntos de datos sintéticos estructurados, que adicionalmente incluyen
texto, y su evaluación comparativa con los datos originales. Este estudio es de gran importancia,
ya que propone un enfoque práctico para mantener el equilibrio entre la utilidad de los datos y la
privacidad de la información personal.
Se hace uso de múltiples técnicas y modelos generativos, como Tddpm y Smote, para la creación de estos conjuntos, empleando recursos como los conjuntos de datos de King County y Económicos.cl. Este trabajo también detalla la metodología implementada basada en Synthetic Data Vault
(SDV), extendida para permitir fases intermedias de almacenamiento de modelos y resultados de
evaluación.
En términos de resultados, el estudio reveló la eficacia de los modelos Tddpm y Smote en la
generación de datos sintéticos que mostraron similitud con los datos originales. No obstante, se
detectaron diferencias notables en aspectos como la cobertura, distribución y privacidad entre los
conjuntos de datos generados, uno de los factores analizados corresponde al tratamiento de los
valores nulos.
Las conclusiones destacan la utilidad y privacidad que ofrece el modelo Tddpm en la generación
de datos sintéticos, proporcionando así una importante contribución al campo de la generación de
datos sintéticos. Se identifican limitaciones en la metodología actual y se plantean oportunidades
para futuras investigaciones, subrayando la creciente importancia de los modelos de generación de
texto y la necesidad de evaluar la privacidad en este contexto.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States