Conectando BibKG con Wikidata
Tesis
Open/ Download
Access note
Acceso abierto
Publication date
2023
Author
Professor Advisor
Abstract
BibKG es un grafo de conocimiento especializado en almacenar informaci´on relacionada
con publicaciones acad´emicas del ´area de las ciencias de la computaci´on. Este proyecto est´a en
fase temprana de desarrollo, y busca seguir aumentando su cantidad de datos almacenados.
Actualmente, BibKG s´olo posee 2 fuentes de datos de informaci´on, ArnetMiner y DBLP.
La idea del presente trabajo es facilitar a BibKG la incorporaci´on de una tercera fuente de
datos, Wikidata. Mientras que tanto ArnetMiner como DBLP poseen datos m´as orientados
a informaci´on de datos acad´emicos, Wikidata es un grafo de conocimiento m´as general, que
posee almacenada informaci´on de todo tipo. De esta forma, permite al proyecto expandir
sus posibilidades en cuanto a la creaci´on de nuevas propiedades, en enriquecimiento de las
propiedades ya existentes, y la posibilidad futura de acceder a nuevas fuentes de datos a
las que tienen acceso las entidades de Wikidata, abriendo la puerta a seguir aumentando la
cantidad de fuentes de informaci´on accesibles por BibKG en el futuro.
Para facilitar dicha tarea, en el presente trabajo se muestra el proceso en el cual se buscaron enlazar las entidades de BibKG con sus equivalentes en Wikidata, mediante la comparaci´on de propiedades clave de estas que permitan definir con alta precisi´on y completitud
si dos entidades son equivalentes o no. Para la realizaci´on de esta tarea se preprocesaron
los datos de BibKG y Wikidata para poder manejarlos con mayor facilidad a la hora de
realizar comparaciones, y se definieron distintos criterios de enlazamiento de entidades. Los
enlazamientos realizados se guardaron en archivos en formato CSV, representando cada fila
del archivo un enlazamiento realizado entre dos entidades de BibKG y Wikidata, junto con
informaci´on relacionada a dicho enlazamiento.
Se lograron enlazar un 9,31 % del total de entidades de BibKG con Wikidata. De esta
forma, se logr´o facilitar al proyecto de BibKG datos confiables para incorporarlos en su base
de datos en el futuro, con informaci´on de cada enlazamiento que permita adem´as al proyecto
estimar si el enlace es seguro, mediante la asociaci´on de cada enlazamiento con los tipos de
enlazamiento con los que fue relacionado con la entidad de Wikidata, junto con algunos datos
adicionales. Adem´as, se cre´o un parser de BibKG, que permite transformar el formato de
este a uno m´as sencillo de interpretar para la m´aquina, lo que puede ser de utilidad para
futuros investigadores que quieran utilizar a dicho proyecto para diversos fines. De todos
modos, existe un margen de mejora en cuanto a las metodolog´ıas utilizadas para enlazar
datos, en particular en las que no se utilizaron identificadores externos para el enlazamiento
de entidades.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/198512
Collections
The following license files are associated with this item: