Optimización de técnicas de balance de datos para clasificador de curvas de luz basado en XGBoost
Professor Advisor
dc.contributor.advisor
Estévez Valencia, Pablo
Author
dc.contributor.author
Caragol Díaz, Vicente Nolasco
Associate professor
dc.contributor.other
Reyes Jainaga, Ignacio
Associate professor
dc.contributor.other
Forster Burón, Francisco
Admission date
dc.date.accessioned
2024-04-22T19:41:37Z
Available date
dc.date.available
2024-04-22T19:41:37Z
Publication date
dc.date.issued
2023
Identifier
dc.identifier.other
10.58011/0tgb-tt18
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/198127
Abstract
dc.description.abstract
En estudios astronómicos se procesan altos volúmenes de datos de gran tamaño, por lo
que para el procesamiento de éstos se utilizan algoritmos de aprendizaje de máquinas. Sin
embargo, para el problema de clasificación de eventos astronómicos se presenta la problemática
del desbalance en el número de datos que se tiene de cada tipo de evento, lo que puede
provocar que algoritmos de clasificación presenten un sesgo en su desempeño. Por esto, en el
presente trabajo se estudiaron distintas metodologías de balance de datos en conjunto a un
clasificador XGBoost para afrontar esta problemática y disminuir el sesgo hacia los eventos
más comunes al clasificar sus curvas de luz. Se analizó una relación entre dicho sesgo con
la variación del parámetro de profundidad máxima del clasificador, observándose un menor
sesgo cuando se disminuye dicho parámetro. Se estudió también la modificación de un algoritmo
Gradient Boosting al implementar balance de datos en la construcción de sus árboles
mediante bootstrapping, con lo que se pudo observar una mejor clasificación en las clases menos
representadas. También se utilizaron datos de clase transiente generados sintéticamente
para estudiar el desempeño de XGBoost con un conjunto de datos balanceados mediante esta
metodología, lo que permitió una mejor clasificación de datos transientes en comparación
a las otras metodologías utilizadas junto a XGBoost. Finalmente, los resultados obtenidos
son comparados con los obtenidos con Balanced Random Forest, algoritmo utilizado por el
clasificador de curvas de luz del broker ALeRCE.
es_ES
Patrocinador
dc.description.sponsorship
ANID, Iniciativa Científica Milenio, ICN12_009 y Fondecyt 1220829
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States