Generación de data sintética en aplicaciones de machine learning para telecomunicaciones
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Peredo Andrade, Óscar
Cómo citar
Generación de data sintética en aplicaciones de machine learning para telecomunicaciones
Author
Professor Advisor
Abstract
En el contexto de aprendizaje automático y ciencia de datos, la disponibilidad de grandes
volúmenes de datos etiquetados es fundamental para el entrenamiento eficaz de modelos predictivos.
Sin embargo, la obtención de datos que sean suficientes y con la calidad adecuada,
puede ser costosa y además puede tomar un gran tiempo. Para abordar este problema, se
presenta el desarrollo e implementación de un motor de aumento de datos que utiliza una
variedad de técnicas avanzadas de machine learning y deep learning, incluidas Redes Generativas
Adversarias (GANs).
El motor de aumento de datos propuesto está diseñado para generar datos sintéticos que
complementen los conjuntos de datos existentes, mejorando la capacidad de generalización
de modelos de aprendizaje automático, incluídos los presentes en ClaroVTR. Este motor se
estructura en varios módulos clave: engine.py, que maneja el flujo principal de datos y las
operaciones de aumento; gan_wrapper.py, que proporciona una capa de abstracción sobre
los modelos GAN; y utils.py, que ofrece funciones auxiliares para la manipulación de datos.
El desarrollo del motor se realizó en varias fases: definición del problema y requisitos, análisis
de datos, diseño de la arquitectura del sistema, implementación de los módulos, y validación
del motor mediante pruebas. La solución fue evaluada en diversas bases de datos que varían
en tamaño y complejidad para determinar su eficacia en diferentes escenarios. Los resultados
demuestran que el motor puede generar datos sintéticos que mejoran el rendimiento de los
modelos de aprendizaje automático en múltiples casos de uso, aunque con variaciones en la
efectividad dependiendo del tipo y tamaño del conjunto de datos. En situaciones en que la
data presenta una dimensión muy alta, es posible que al reducir espacios de búsqueda para
optimizar tiempos de ejecución, los resultados no mejoren considerablemente, presentando
incluso disminuciones del rendimiento.
La implementación se llevó a cabo utilizando bibliotecas de código abierto como numpy,
pandas, pytorch y SDV, asegurando la integridad y reproducibilidad del sistema.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil Eléctrico
Identifier
URI: https://repositorio.uchile.cl/handle/2250/202597
Collections
The following license files are associated with this item: