Identifying ESO data usage in scientific publications for astrophysical discoveries through Natural Language Processing
Tesis

Access note
Acceso abierto
Publication date
2025Metadata
Show full item record
Cómo citar
Cerda Villablanca, Mauricio
Cómo citar
Identifying ESO data usage in scientific publications for astrophysical discoveries through Natural Language Processing
Author
Professor Advisor
Abstract
Esta tesis propone una estrategia flexible para automatizar la identificación de publicaciones científicas que emplean datos obtenidos mediante instrumentos o telescopios de la ESO en el ámbito de descubrimientos astrofísicos. Mediante el uso de modelos basados en transformers, se abordan los desafíos clave que enfrentan las instituciones de investigación al rastrear el impacto científico de sus observatorios astronómicos. En este contexto, se desarrollaron y evaluaron dos modelos complementarios: el Usage Model, diseñado para detectar publicaciones que utilizan datos de ESO, y el Purpose Model, enfocado en clasificar si una publicación está orientada principalmente a descubrimientos astrofísicos.
El Usage Model implementa un enfoque de clasificación de texto condicional basado en entradas estructuradas, logrando una puntuación F1 de 0.93. Su capacidad de adaptarse a telescopios e instrumentos no vistos previamente demuestra su escalabilidad para futuras aplicaciones. Por su parte, el Purpose Model alcanza un rendimiento sobresaliente con una puntuación F1 de 0.95, diferenciando con alta precisión investigaciones destinadas a descubrimientos astrofísicos. Al combinar ambos modelos, se logra un 90% de precisión en la clasificación, procesando publicaciones entre 300 y 600 veces más rápido que el actual proceso manual no automatizado. Además, el método propuesto supera al estado del arte vigente, el cual alcanzó un 72% en precisión, evidenciando una mejora significativa en el rendimiento.
Entre las principales innovaciones de esta investigación se incluye una estrategia de clasificación de texto condicional adaptada a escenarios con etiquetado suave, teniendo en cuenta las limitaciones inherentes a las anotaciones en entornos del mundo real. Los resultados confirman la hipótesis de que los modelos basados en transformers, ajustados a conjuntos de datos específicos del dominio, pueden proporcionar mejoras sustanciales en la eficiencia del análisis de publicaciones científicas, tanto en términos de rendimiento como de velocidad.
En conclusión, esta tesis optimiza los flujos de trabajo para instituciones como la ESO y propone una estrategia extensible a otros dominios que requieren la clasificación del uso de instrumentos diversos. Al automatizar la identificación del uso de datos y el propósito investigativo, esta investigación contribuye significativamente al avance de la toma de decisiones basada en datos y al fomento del descubrimiento científico.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de los datos
Identifier
URI: https://repositorio.uchile.cl/handle/2250/208305
Collections
The following license files are associated with this item:
identifying-eso-data-usage-in-scientific-publications-for-astrophysical-discoveries-through-natural-language.pdf (2.405Mb)