Data sintética privada, ejecución y evaluaciones de modelos
Tesis

Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Abeliuk Kimelman, Andrés
Cómo citar
Data sintética privada, ejecución y evaluaciones de modelos
Professor Advisor
Abstract
En la era de la información, la generación y análisis de conjuntos de datos es crucial para avanzar en diversas disciplinas. Sin embargo, la privacidad y la utilidad de los datos se han convertido
en consideraciones esenciales. Esta tesis aborda estas preocupaciones mediante el desarrollo de un
mecanismo para generar conjuntos de datos sintéticos estructurados, que adicionalmente incluyen
texto, y su evaluación comparativa con los datos originales. Este estudio es de gran importancia,
ya que propone un enfoque práctico para mantener el equilibrio entre la utilidad de los datos y la
privacidad de la información personal.
Se hace uso de múltiples técnicas y modelos generativos, como Tddpm y Smote, para la creación de estos conjuntos, empleando recursos como los conjuntos de datos de King County y Económicos.cl. Este trabajo también detalla la metodología implementada basada en Synthetic Data Vault
(SDV), extendida para permitir fases intermedias de almacenamiento de modelos y resultados de
evaluación.
En términos de resultados, el estudio reveló la eficacia de los modelos Tddpm y Smote en la
generación de datos sintéticos que mostraron similitud con los datos originales. No obstante, se
detectaron diferencias notables en aspectos como la cobertura, distribución y privacidad entre los
conjuntos de datos generados, uno de los factores analizados corresponde al tratamiento de los
valores nulos.
Las conclusiones destacan la utilidad y privacidad que ofrece el modelo Tddpm en la generación
de datos sintéticos, proporcionando así una importante contribución al campo de la generación de
datos sintéticos. Se identifican limitaciones en la metodología actual y se plantean oportunidades
para futuras investigaciones, subrayando la creciente importancia de los modelos de generación de
texto y la necesidad de evaluar la privacidad en este contexto.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Tecnologías de la Información
Collections
The following license files are associated with this item: