Show simple item record

Professor Advisordc.contributor.advisorAbeliuk Kimelman, Andrés
Authordc.contributor.authorVillarroel González, Gerardo Jorge
Associate professordc.contributor.otherOlmedo Berón, Federico
Associate professordc.contributor.otherToro Ipinza, Matías
Associate professordc.contributor.otherBuil Aranda, Carlos
Admission datedc.date.accessioned2024-08-02T16:46:33Z
Available datedc.date.available2024-08-02T16:46:33Z
Publication datedc.date.issued2023
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/199902
Abstractdc.description.abstractEn la era de la información, la generación y análisis de conjuntos de datos es crucial para avanzar en diversas disciplinas. Sin embargo, la privacidad y la utilidad de los datos se han convertido en consideraciones esenciales. Esta tesis aborda estas preocupaciones mediante el desarrollo de un mecanismo para generar conjuntos de datos sintéticos estructurados, que adicionalmente incluyen texto, y su evaluación comparativa con los datos originales. Este estudio es de gran importancia, ya que propone un enfoque práctico para mantener el equilibrio entre la utilidad de los datos y la privacidad de la información personal. Se hace uso de múltiples técnicas y modelos generativos, como Tddpm y Smote, para la creación de estos conjuntos, empleando recursos como los conjuntos de datos de King County y Económicos.cl. Este trabajo también detalla la metodología implementada basada en Synthetic Data Vault (SDV), extendida para permitir fases intermedias de almacenamiento de modelos y resultados de evaluación. En términos de resultados, el estudio reveló la eficacia de los modelos Tddpm y Smote en la generación de datos sintéticos que mostraron similitud con los datos originales. No obstante, se detectaron diferencias notables en aspectos como la cobertura, distribución y privacidad entre los conjuntos de datos generados, uno de los factores analizados corresponde al tratamiento de los valores nulos. Las conclusiones destacan la utilidad y privacidad que ofrece el modelo Tddpm en la generación de datos sintéticos, proporcionando así una importante contribución al campo de la generación de datos sintéticos. Se identifican limitaciones en la metodología actual y se plantean oportunidades para futuras investigaciones, subrayando la creciente importancia de los modelos de generación de texto y la necesidad de evaluar la privacidad en este contexto.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleData sintética privada, ejecución y evaluaciones de modeloses_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.carrerauchile.carreraIngeniería Civil en Computaciónes_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Tecnologías de la Informaciónes_ES


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States