Generación de data sintética en aplicaciones de machine learning para telecomunicaciones
Professor Advisor
dc.contributor.advisor
Peredo Andrade, Óscar
Author
dc.contributor.author
Pérez Olivares, Joaquín Enrique
Associate professor
dc.contributor.other
Caba Rutte, Andrés
Associate professor
dc.contributor.other
Espinoza Pereira, Miguel
Admission date
dc.date.accessioned
2025-01-03T16:00:01Z
Available date
dc.date.available
2025-01-03T16:00:01Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/202597
Abstract
dc.description.abstract
En el contexto de aprendizaje automático y ciencia de datos, la disponibilidad de grandes
volúmenes de datos etiquetados es fundamental para el entrenamiento eficaz de modelos predictivos.
Sin embargo, la obtención de datos que sean suficientes y con la calidad adecuada,
puede ser costosa y además puede tomar un gran tiempo. Para abordar este problema, se
presenta el desarrollo e implementación de un motor de aumento de datos que utiliza una
variedad de técnicas avanzadas de machine learning y deep learning, incluidas Redes Generativas
Adversarias (GANs).
El motor de aumento de datos propuesto está diseñado para generar datos sintéticos que
complementen los conjuntos de datos existentes, mejorando la capacidad de generalización
de modelos de aprendizaje automático, incluídos los presentes en ClaroVTR. Este motor se
estructura en varios módulos clave: engine.py, que maneja el flujo principal de datos y las
operaciones de aumento; gan_wrapper.py, que proporciona una capa de abstracción sobre
los modelos GAN; y utils.py, que ofrece funciones auxiliares para la manipulación de datos.
El desarrollo del motor se realizó en varias fases: definición del problema y requisitos, análisis
de datos, diseño de la arquitectura del sistema, implementación de los módulos, y validación
del motor mediante pruebas. La solución fue evaluada en diversas bases de datos que varían
en tamaño y complejidad para determinar su eficacia en diferentes escenarios. Los resultados
demuestran que el motor puede generar datos sintéticos que mejoran el rendimiento de los
modelos de aprendizaje automático en múltiples casos de uso, aunque con variaciones en la
efectividad dependiendo del tipo y tamaño del conjunto de datos. En situaciones en que la
data presenta una dimensión muy alta, es posible que al reducir espacios de búsqueda para
optimizar tiempos de ejecución, los resultados no mejoren considerablemente, presentando
incluso disminuciones del rendimiento.
La implementación se llevó a cabo utilizando bibliotecas de código abierto como numpy,
pandas, pytorch y SDV, asegurando la integridad y reproducibilidad del sistema.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States