Deep learning para identificación de núcleos activos de galaxias por variabilidad

En la presente era de datos masivos, la astronomía requiere de herramientas automatizadas para el análisis de información asociada al comportamiento de objetos a lo largo del tiempo. El desarrollo de proyectos de observación sinópticos plantea muchos desafíos en lo que respecta a obtener descripciones relevantes de los aspectos subyacentes de muchos procesos variables en el tiempo. En particular, el estudio de los Núcleos Activos de Galaxia (AGN) resulta de especial interés; dado su comportamiento estocástico en el tiempo y la singular estructura en la variación temporal de su emisión electromagnética. El uso de algoritmos de aprendizaje computacional ha sido de gran éxito en aspectos de identificación de objetos según su morfología y análisis espectral; es de mucho valor el replicar esos resultados en el análisis de dominio temporal. Con este fin es que se puso a prueba distintas configuraciones de arquitecturas de algoritmos de Deep Learning, en particular Convolutional Neural Networks y Recurrent Neural Networks, con el fin de realizar tareas de clasificación de AGN a partir de sus curvas de luz. Estos se pusieron a prueba sobre datos simulados mediante un modelo matemático y sobre 6102 curvas de luz reales obtenidas a partir de observaciones de los campos extragalácticos COSMOS, Stripe82 y XMM-LSS. Los resultados fueron favorables sobre datos simulados, alcanzando un puntaje ROC AUC máximo de 0.96, pero no así sobre datos reales, donde el puntaje máximo alcanzado fue de 0.55 ROC AUC. Esta diferencia puede explicarse debido al reducido número de datos reales del que se dispuso a la hora de entrenar los distintos clasificadores, y a que el modelo de simulación permitió generar un mucho mayor número de curvas de entrenamiento, lo cual permitió un mucho mejor aprendizaje a partir de estas. El presente trabajo entregó información cuantitativa sobre lo importantes que son ciertas características de las curvas de luz, en particular la regularidad de su muestreo y el número de observaciones, en el desempeño de estos tipos de modelos de clasificación de Deep Learning. Junto con esto, se plantea un flujo en el procedimiento de manejo de datos de curvas de luz para clasificación, desde su recolección desde archivos de formato estándar (FITS) hasta la validación de los modelos, que puede ser reutilizado en el futuro en aplicaciones de Deep Learning sobre series de tiempo. Se sugiere, además, el añadir en próximas implementaciones métodos para manejo de incertidumbre debido a ausencia de mediciones, tales como modelos gráficos, de estado oculto o estocásticos.

General note

Magíster en Ciencias, Mención Computación

Identifier

URI: https://repositorio.uchile.cl/handle/2250/168059

Collections