Abstract | dc.description.abstract | Hoy en día, una gran cantidad de datasets están basados en RDF, dada su denominación
como estándar de la Web. Wikidata [19] es uno los más importantes y masivos datasets RDF,
conteniendo más de 84 millones de items1, y tiene por función estructurar y estandarizar el
contenido de datos de Wikipedia.
Wikidata al igual que muchos otros datasets RDF publicados como Linked Data [12]
está en constante cambio, debido a que corresponde a un dataset abierto y colaborativo
que puede ser editado por sus usuarios. Además, datos adicionales son importados desde
fuente externas constantemente, lo cual convierte a Wikidata en un dataset muy dinámico
en ciertos aspectos. Dadas estas circunstancias, se puede decir que Wikidata tiene distintas
versiones en el tiempo, donde los datos disponibles son distintos dependiendo del periodo
de tiempo donde se consulten. Este hecho hace posible analizar una componente temporal
de Wikidata y, por lo tanto, sería relevante estudiar la posibilidad de desarrollar un sistema
de versionamiento y una metodología para construir consultas usando sólamente SPARQL
base junto a un modelo RDF que sea capaz de representar datos versionados, manteniéndose
abierto a recibir consultar sin utilizar herramientas o software especializado.
En este trabajo proponemos y analizamos un sistema que permite, de manera eficiente,
almacenar y realizar consultas sobre grafos RDF que mantienen un historial de cambios en
el tiempo. Algunos sistemas que llevan a cabo objetivos similares ya existen. Sin embargo,
dichos sistemas utilizan extensiones, índices especializados y herramientas fuera del estándar.
Teniendo esto en mente, se añade la meta de construir un sistema que logre nuestro objetivo
usando sólamente RDF y SPARQL base, con la intención de dar al problema una solución
estándar y lista para usar en cualquier ambiente.
Se hacen pruebas con varias alternativas para representar el dataset versionado. Cada
una requiere su propio método para convertir consultas SPARQL, permitiendo la compatibilidad
con los datasets construidos. Se mantiene una versión sin compresión para comparar
los resultados obtenidos. Junto a ésta, se construyen representaciones basadas de deltas e
intervalos. Se definen dos tipos de deltas: absolutos, donde cada versión del grafo se compara
con la versión base (puede ser la más antigua o la más reciente), y secuenciales, donde cada
versión se compara con la versión anterior a sí misma, manteniendo así una representación
paso a paso de los cambios a través del tiempo.
En general, la representación basada en intervalos tiene el mejor desempeño, excepto por
el tiempo que toma su construcción. Sin embargo, dichos tiempos de construcción se pueden
mejorar con pequeñas optimizaciones. Además, la representación de intervalos es la única
que ofrece soporte parcial para property paths, mientras que el resto de las representaciones
son completamente incompatibles con éstos dado que no posible aplicar un property path
sobre múltiples named graphs. | es_ES |