Representation of astronomical time series using information retrieval theory
Tesis
Access note
Acceso abierto
Publication date
2022Metadata
Show full item record
Cómo citar
Barbay Lefevre, Jérémy
Cómo citar
Representation of astronomical time series using information retrieval theory
Author
Professor Advisor
Abstract
Series de Tiempo son un tipo de dato ampliamente utilizado en muchos campos como ciencias, ingeniería, finanzas o industria, para la clasificación de objetos astronómicos, análisis de indicadores económicos o análisis de fenómenos meteorológicos entre otros. La mayoría de los trabajos propuestos en esta área son diseñados para Series de Tiempo regularmente muestreadas y no aplican cuando la Serie de Tiempo presenta muestreo irregular y variables multi-dimensionales, como ocurre usualmente en Astronomía con las Series de Tiempo multi-banda.
En esta tesis estudiamos métodos de representación de Series de Tiempo y los aplicamos al desafiante problema de clasificación en grandes conjuntos de datos astronómicos. Proponemos un nuevo método de representación de Series de Tiempo, llamado IBOPF (Irregular Bag-of-Pattern Features), el cual es una extensión del clásico BOPF, pero adaptado para Series de Tiempo irregulares y multivariadas. Adicionalmente, hemos extendido nuestro método para aplicaciones de múltiples cantidades estadísticas y múltiples niveles de resolución en un intento de incrementar el rendimiento de la representación, a estas extensiones las hemos llamado Extended IBOPF. IBOPF calcula los vectores de características utilizando Teoría de Recuperación de la Información, transformando la Serie de Tiempo en secuencias de palabras, las cuales son representadas en vectores compactos a través de métodos de selección de features o reducción de dimensión.
Para las evaluaciones experimentales utilizamos el set de datos PLaSTiCC (The Photometric LSST Astronomical Time Series Classification Challenge), un set de datos altamente desbalanceado con un set de entrenamiento no representativo. El método propuesto es comparado con el método del estado-del-arte AVOCADO en clasificación, búsqueda por similitud y tiempo computacional. En general, los resultados muestran que AVOCADO supera nuestro método propuesto en clasificación (0.82 y 0.65 acc., respectivamente), y búsqueda por similitud (0.67 y 0.34 mAP@10, respectivamente), pero nuestro método tiene menores tiempos computacionales (256 +- 66 y 4 +- 1 ms por Serie de Tiempo, respectivamente). Sobre los resultados concluimos que aunque es posible aplicar IBOPF a Series de Tiempo Irregulares y Multivariadas, se necesita realizar más estudios y ajustes para producir resultados competitivos, en donde hemos detallado algunas posibles líneas de investigación futura.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias, Mención Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/189658
Collections
The following license files are associated with this item: