Enlazando Twitter con Wikidata
Tesis
Open/ Download
Access note
Acceso abierto
Publication date
2024
Author
Professor Advisor
Abstract
TelarKG es una base de datos orientada a grafos que contiene información referente al proceso constituyente en Chile del año 2021. Entre los datos que almacena se encuentran publicaciones de Twitter (tuits) y entidades de convencionales constituyentes de ese periodo, entre otros.
Al explorar la magnitud de 20 millones de tuits almacenados, se revela un desafío: únicamente un pequeño porcentaje establece conexiones dentro de la base de datos. Los tuits enlazados son aquellos publicados por miembros de la convención. En cuanto a los tuits restantes, aunque compartan una temática común, no poseen enlaces identificables. Esta falta de vinculación plantea un desafío significativo para el análisis de los datos almacenados, limitando la capacidad de investigación.
La propuesta de solución consiste en enlazar los tuits con entidades reconocidas procedentes de otra fuente de datos, como Wikidata. Esta última dispone de datos y metadatos relevantes para el caso de estudio, incluyendo información sobre los miembros de la convención constitucional, partidos políticos chilenos y lugares geográficos.
Con el propósito de enriquecer TelarKG mediante la generación de enlaces en los tuits, se aplica sobre estos entity linking, una tarea del Procesamiento de Lenguaje Natural, que genera enlaces entre texto y alguna fuente de datos, como lo es Wikidata.
Esta tarea enfrenta dos desafíos fundamentales: la considerable magnitud de datos a procesar y la escasa contextualización proporcionada en los tuits, generando casos desafiantes para el proceso de entity linking. Se investiga la viabilidad de etiquetar la totalidad de los datos y se realiza una evaluación de la calidad de las etiquetas identificadas.
Estos resultados se incorporan a TelarKG en forma de 71.590 nuevas entidades y 29.311.087 enlaces con tuits. Esta adición posibilita la ejecución de consultas específicas sobre los tuits almacenados en TelarKG, ofreciendo la capacidad de realizar consultas más complejas en comparación con el buscador de Twitter o con la base de datos de TelarKG por sí solos.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniera Civil en Computación
Patrocinador
Departamento de Ciencias de la
Computación, FCFM, Centro de Costos 1618
Identifier
URI: https://repositorio.uchile.cl/handle/2250/200209
Collections
The following license files are associated with this item: