Identifying ESO data usage in scientific publications for astrophysical discoveries through Natural Language Processing
Professor Advisor
dc.contributor.advisor
Cerda Villablanca, Mauricio
Author
dc.contributor.author
Urbina Lara, Claudio Isaías
Associate professor
dc.contributor.other
Bravo Márquez, Felipe
Admission date
dc.date.accessioned
2026-01-12T16:01:40Z
Available date
dc.date.available
2026-01-12T16:01:40Z
Publication date
dc.date.issued
2025
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/208305
Abstract
dc.description.abstract
Esta tesis propone una estrategia flexible para automatizar la identificación de publicaciones científicas que emplean datos obtenidos mediante instrumentos o telescopios de la ESO en el ámbito de descubrimientos astrofísicos. Mediante el uso de modelos basados en transformers, se abordan los desafíos clave que enfrentan las instituciones de investigación al rastrear el impacto científico de sus observatorios astronómicos. En este contexto, se desarrollaron y evaluaron dos modelos complementarios: el Usage Model, diseñado para detectar publicaciones que utilizan datos de ESO, y el Purpose Model, enfocado en clasificar si una publicación está orientada principalmente a descubrimientos astrofísicos.
El Usage Model implementa un enfoque de clasificación de texto condicional basado en entradas estructuradas, logrando una puntuación F1 de 0.93. Su capacidad de adaptarse a telescopios e instrumentos no vistos previamente demuestra su escalabilidad para futuras aplicaciones. Por su parte, el Purpose Model alcanza un rendimiento sobresaliente con una puntuación F1 de 0.95, diferenciando con alta precisión investigaciones destinadas a descubrimientos astrofísicos. Al combinar ambos modelos, se logra un 90% de precisión en la clasificación, procesando publicaciones entre 300 y 600 veces más rápido que el actual proceso manual no automatizado. Además, el método propuesto supera al estado del arte vigente, el cual alcanzó un 72% en precisión, evidenciando una mejora significativa en el rendimiento.
Entre las principales innovaciones de esta investigación se incluye una estrategia de clasificación de texto condicional adaptada a escenarios con etiquetado suave, teniendo en cuenta las limitaciones inherentes a las anotaciones en entornos del mundo real. Los resultados confirman la hipótesis de que los modelos basados en transformers, ajustados a conjuntos de datos específicos del dominio, pueden proporcionar mejoras sustanciales en la eficiencia del análisis de publicaciones científicas, tanto en términos de rendimiento como de velocidad.
En conclusión, esta tesis optimiza los flujos de trabajo para instituciones como la ESO y propone una estrategia extensible a otros dominios que requieren la clasificación del uso de instrumentos diversos. Al automatizar la identificación del uso de datos y el propósito investigativo, esta investigación contribuye significativamente al avance de la toma de decisiones basada en datos y al fomento del descubrimiento científico.
es_ES
Lenguage
dc.language.iso
en
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States