Extraction and classification of objects from astronomical images in the presence of labeling bias
Professor Advisor
dc.contributor.advisor
Hitschfeld Kahler, Nancy
Professor Advisor
dc.contributor.advisor
Bustos Cárdenas, Benjamín
Professor Advisor
dc.contributor.advisor
Miller, Christopher
Author
dc.contributor.author
Cabrera Vives, Guillermo
Staff editor
dc.contributor.editor
Facultad de Ciencias Físicas y Matemáticas
Staff editor
dc.contributor.editor
Departamento de Ciencias de la Computación
Associate professor
dc.contributor.other
Poblete Labra, Bárbara
Associate professor
dc.contributor.other
Guerrero Pérez, Pablo
Associate professor
dc.contributor.other
Protopapas, Pavlos
Admission date
dc.date.accessioned
2015-08-31T18:38:25Z
Available date
dc.date.available
2015-08-31T18:38:25Z
Publication date
dc.date.issued
2015
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/133321
General note
dc.description
Doctor en Ciencias, Mención Computación
Abstract
dc.description.abstract
Giga, tera y petabytes de datos astronómicos están empezando a fluir desde la nueva generación de telescopios. Los telescopios de rastreo escanean una amplia zona del cielo con el fin de mapear la galaxia, nuestro universo, y detectar fuentes variables como la explosion de estrellas (o supernovas) y asteroides. Al igual que en otros campos de la ciencia observacional, lo único que podemos hacer es observar estas fuentes a través de la luz que emiten y que podemos capturar en nuestras cámaras. Debido a la gran distancia a la que estos objetos se encuentran, aún cuando podemos tener una caracterización estimada de estas fuentes, es imposible conocer las propiedades reales de ellas.
En esta tesis, proponemos un método para la extracción de los llamados perfiles de Sérsic de fuentes astronómicas y su aplicación a clasificación morfológica de objetos. Este perfil de Sérsic es un modelo paramétrico radial asociado con la morfología de galaxias. La novedad de nuestro enfoque es que convierte la imagen 2D en un perfil radial 1D utilizando curvas de nivel elípticas, por lo que incluso cuando el espacio de parámetros de Sérsic es el mismo, la complejidad se ve reducida 10 veces en comaración a ajustes de modelos en 2D de la literatura. Probamos nuestro método sobre simulaciones y obtenemos un error de entre un 40% y un 50% en los parámetros de Sérsic, mientras que obtenemos un chi cuadrado reducido de 1,01. Estos resultados son similares a los obtenidos por otros autores, lo que sugiere que el modelo de Sérsic es degenerado. A su vez, aplicamos nuestro método a imágenes del SDSS y mostramos que somos capaces de extraer la componente suave del perfil de las galaxias, pero, como era de
esperar, fallamos en obtener su estructura más fina.
También mostramos que las etiquetas creadas por los seres humanos son sesgadas en términos de parámetros observables: al observar galaxias pequeñas, débiles o distantes, la estructura fina de estos objetos se pierde, produciendo un sesgo en el etiquetado sistemático hacia objetos más suaves. Creamos una métrica para evaluar el nivel de sesgo en los catálogos de las etiquetas y demostramos que incluso etiquetas obtenidas por expertos muestran cierto sesgo, mientras que el sesgo es menor para etiquetas obtenidas a partir de modelos de aprendizaje supervisado. Aun cuando este sesgo ha sido notado en la literatura, hasta donde sabemos, esta es la primera vez que ha sido cuantificado. Proponemos dos métodos para des-sesgar etiquetas. El primer método se basa en seleccionar una sub-muestra no-sesgada de los datos para entrenar un modelo de clasificación, y el segundo método ajusta simultáneamente un modelo de sesgo y de clasificación a los datos. Demostramos que ambos métodos obtienen el sesgo más bajo en comparación con otros conjuntos de datos y procedimientos de procesamiento.