Optimización de técnicas de balance de datos para clasificador de curvas de luz basado en XGBoost
Tesis
Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Estévez Valencia, Pablo
Cómo citar
Optimización de técnicas de balance de datos para clasificador de curvas de luz basado en XGBoost
Author
Professor Advisor
Abstract
En estudios astronómicos se procesan altos volúmenes de datos de gran tamaño, por lo
que para el procesamiento de éstos se utilizan algoritmos de aprendizaje de máquinas. Sin
embargo, para el problema de clasificación de eventos astronómicos se presenta la problemática
del desbalance en el número de datos que se tiene de cada tipo de evento, lo que puede
provocar que algoritmos de clasificación presenten un sesgo en su desempeño. Por esto, en el
presente trabajo se estudiaron distintas metodologías de balance de datos en conjunto a un
clasificador XGBoost para afrontar esta problemática y disminuir el sesgo hacia los eventos
más comunes al clasificar sus curvas de luz. Se analizó una relación entre dicho sesgo con
la variación del parámetro de profundidad máxima del clasificador, observándose un menor
sesgo cuando se disminuye dicho parámetro. Se estudió también la modificación de un algoritmo
Gradient Boosting al implementar balance de datos en la construcción de sus árboles
mediante bootstrapping, con lo que se pudo observar una mejor clasificación en las clases menos
representadas. También se utilizaron datos de clase transiente generados sintéticamente
para estudiar el desempeño de XGBoost con un conjunto de datos balanceados mediante esta
metodología, lo que permitió una mejor clasificación de datos transientes en comparación
a las otras metodologías utilizadas junto a XGBoost. Finalmente, los resultados obtenidos
son comparados con los obtenidos con Balanced Random Forest, algoritmo utilizado por el
clasificador de curvas de luz del broker ALeRCE.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil Eléctrico
Patrocinador
ANID, Iniciativa Científica Milenio, ICN12_009 y Fondecyt 1220829
Collections
The following license files are associated with this item: