Parte importante de la labor astronómica consiste en analizar observaciones de radiaciones electromagnéticas en la forma de espectros de frecuencia, procedentes del espacio y emitidas por objetos tales como estrellas, galaxias y otros. A partir de estos espectros se puede identificar una serie de propiedades y características de los objetos de los cuales provienen; en particular, las líneas espectrales (tanto de emisión como de absorción) presentes resultan ser un indicador de las especies (átomos, moléculas, isótopos, etc.) presentes en su composición química.
En el presente trabajo se llevó a cabo con el fin de obtener un cierto tipo de asociaciones lógicas, llamadas reglas de asociación, entre líneas espectrales presentes a lo largo de distintos espectros de frecuencia. En particular, se busca aplicar a conjuntos de espectros de frecuencia obtenidos a partir de datos de observaciones astronómicas, para así obtener información de las relaciones existentes entre estas líneas bajo distintas medidas de interés y relevancia estadística.
Para ello se llevó a cabo, en el lenguaje de programación Python, una implementación de algoritmos de Aprendizaje de Reglas de asociación, o Association Rule Learning (ARL); en particular los algoritmos Apriori y FP-Growth. La aplicación final, que hace uso de estos algoritmos, permite al usuario observar las reglas obtenidas bajo requerimientos mínimos de soporte y confianza de ellas, ordenarlas según estas dos medidas junto con su lift, y mostrar las que posean un cierto elemento en particular en su antecedente, consecuente o en ambos.
La aplicación y sus algoritmos se probaron sobre datos simulados y, posteriormente, sobre datos reales de observaciones en el espectro visible obtenidas del Sloan Digital Sky Survey (SDSS), previo un pre-procesamiento adecuado de estos. Los resultados obtenidos muestran un considerable mejor desempeño (de por lo menos la mitad del tiempo total de ejecución) por parte del algoritmo Apriori por sobre FP-Growth para valores pequeños de soporte (cercanos a 0.15). Esto puede deberse, principalmente, al tamaño reducido del universo de ítems (lineas espectrales detectadas) posibles presentes en cada transacción (espectro de frecuencias); lo cual hace perder sustancialmente la ventaja comparativa que posee FP-Growth al utilizar una estructura de datos tipo árbol.
Se espera a futuro poder realizar el proceso de ARL a partir datos en otras frecuencias del espectro electromagnético; como por ejemplo, los datos radioastronómicos del Atacama Large Millimeter/submillimeter Array (ALMA). Junto con esto, se espera más adelante poder mejorar la aplicación en términos de su interfaz gráfica y usabilidad.