Clasificador de curvas de luz utilizando modelo XGBoost y técnicas de balance de datos
Professor Advisor
dc.contributor.advisor
Estévez Valencia, Pablo
Author
dc.contributor.author
Molina Ferreiro, Javier Antonio
Associate professor
dc.contributor.other
Zegers Fernández, Pablo
Associate professor
dc.contributor.other
Reyes Jainaga, Ignacio Alfredo
Admission date
dc.date.accessioned
2022-05-30T21:29:52Z
Available date
dc.date.available
2022-05-30T21:29:52Z
Publication date
dc.date.issued
2022
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/185788
Abstract
dc.description.abstract
Los telescopios de survey recolectan todas las noches grandes cantidades de datos sobre las variaciones en el brillo de objetos estelares o bien, de su movimiento, denominadas alertas astronómicas. Dado el volumen de datos y la velocidad a la que se producen, se requieren agentes intermediarios, denominados brokers, quienes realizan la clasificación de alertas.
ALeRCE es un broker que recibe las alertas provenientes del survey astronómico ZTF (Zwicky Transient Facility) y entre sus principales labores está la rápida clasificación de las alertas, siendo capaz de separar las alertas falsas de las reales, y dentro de estas últimas, identificar hasta 15 clases distintas.
En el presente trabajo se evaluó el potencial del algoritmo de aprendizaje XGBoost en la tarea predictiva de clasificación de curvas de luz. Actualmente ALeRCE utiliza el modelo Balanced Random Forest (BRF). La motivación detrás de este estudio es el gran desbalance de los datos, el cual es agravado debido a las múltiples clases existentes. Por este motivo se propone el estudio e implementación de técnicas para evitar el efecto de entrenar modelos con desbalance de datos.
Para el entrenamiento del modelo XGBoost usando distintas técnicas de balance, se implementó el procedimiento Nested Cross Validation mediante el cual se entrena y evalúa cada modelo 10 veces con distintos grupos de entrenamiento y test, de forma de obtener valores promedio para el desempeño. Este mismo procedimiento fue realizado además para replicar el clasificador de ALeRCE con BRF, para así poder comparar el desempeño de ambos modelos.
Fueron varias técnicas de desbalance con las que XGBoost mejoró sus resultados. Al analizar las matrices de confusión resultantes se comprobó una disminución en el sesgo hacia las clases mayoritarias por parte del modelo predictivo. Se destaca la técnica de balance Cost Sensitive Learning, con la cual XGBoost superó a BRF en todos clasificadores que componen el clasificador de curvas de luz, obteniendo en la unión de niveles del clasificador valores de 0.67, 0.79 y 0.70 para Precision, Recall y F1-score respectivamente, en contraste con BRF que obtuvo valores de 0.57, 0.76 y 0.60 para las mismas métricas respectivamente, demostrando además que las diferencias de desempeño obtenidas fueron estadísticamente significativas.
Por último, se realizó un test final en los modelos con los que se obtuvo mejores resultados. Las curvas de luz de este test corresponden a aquellas que no fueron utilizadas ni durante la experimentación del presente trabajo ni por ALeRCE en el paper en el que presentaron su clasificador de curvas luz. De los resultados obtenidos se confirma que Cost Sensitive Learning es la mejor técnica de balance de datos para utilizar en conjunto con XGBoost.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States