Aprendizaje auto-supervisado para la detección de curvas de luz anómalas

Se propone un modelo basado en aprendizaje auto-supervisado para la detección de curvas de luz anómalas mediante la asignación de un puntaje de anomalía. En este enfoque, cada curva de luz se somete a una codificación que la convierte en un vector de longitud fija utilizando un Autoencoder. Este Autoencoder está compuesto por capas convolucionales y capas LSTM para realizar esta codificación de manera eficiente. Después de obtener la representación codificada o embedding de la curva, se agrega a este vector un conjunto de características que se calculan a partir de la banda de observación g de las curvas de luz. Adicionalmente se realizan experimentos al utilizar características computadas a partir de la banda de observación g y r de manera independiente, y en conjunto. El puntaje de anomalía se determina en función de la cercanía al clúster más cercano en el espacio de representación. Estas representaciones se obtienen mediante un modelo Perceptrón Multicapa que ha sido entrenado utilizando técnicas de aprendizaje auto-supervisado contrastivo. Este enfoque se aplica a datos del sondeo Zwicky Transient Facility (ZTF) procesados por ALeRCE, que incluye curvas de luz Periódicas (ZTF-PER), Estocásticas (ZTF-STO) y Transientes (ZTF-TRA). Tanto el modelo propuesto como los modelos de referencia se evalúan utilizando las métricas AUCPR y AUROC. En ambos casos, la clase positiva se considera como la clase que se etiqueta como outlier. Dentro de los modelos de referencia que forman parte del estado del arte incluyen enfoques como One-Class SVM, Local Outlier Factor (LOF), TS-TCC y MCDSVDD. Estos modelos se utilizan como puntos de comparación para evaluar el rendimiento del modelo propuesto en la detección de objetos inusuales en los datos. Los resultados obtenidos muestran que el enfoque propuesto supera a los métodos existentes en la detección de la mayoría de las clases de objetos astronómicos en los conjuntos de datos Transientes y Estocásticos. Sin embargo, obtiene resultados inferiores para la mayoría de las clases de objetos Periódicos con respecto a los modelos de referencia. La importancia de este trabajo radica en la capacidad del aprendizaje auto-supervisado para aprovechar al máximo los datos no etiquetados, que suelen ser mucho más abundantes que los datos etiquetados en muchos campos, incluida la astronomía, donde la recopilación de datos es constante y abarca un vasto espectro de información.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Tesis para optar al grado de Magíster en Ciencias de Datos

Memoria para optar al título de Ingeniero Civil Eléctrico

Patrocinador

ANID, Iniciativa Cient´ıfica Milenio, ICN12 009 y el proyecto Fondecyt 1220829.

Identifier

URI: https://repositorio.uchile.cl/handle/2250/200224
DOI: 10.58011/3avj-my57

Collections