Versioned datasets and queries in RDF/SPARQL

Cuevas Rojas, Ignacio Iván

Professor Advisor	dc.contributor.advisor	Hogan, Aidan
Author	dc.contributor.author	Cuevas Rojas, Ignacio Iván
Associate professor	dc.contributor.other	Bustos Cárdenas, Benjamín
Associate professor	dc.contributor.other	Poblete Labra, Bárbara
Associate professor	dc.contributor.other	Buil Aranda, Carlos
Admission date	dc.date.accessioned	2021-01-28T22:13:35Z
Available date	dc.date.available	2021-01-28T22:13:35Z
Publication date	dc.date.issued	2020
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/178401
General note	dc.description	Tesis para optar al grado de Magíster en Ciencias, Mención Computación	es_ES
General note	dc.description	Memoria para optar al título de Ingeniero Civil en Computación
Abstract	dc.description.abstract	Hoy en día, una gran cantidad de datasets están basados en RDF, dada su denominación como estándar de la Web. Wikidata [19] es uno los más importantes y masivos datasets RDF, conteniendo más de 84 millones de items1, y tiene por función estructurar y estandarizar el contenido de datos de Wikipedia. Wikidata al igual que muchos otros datasets RDF publicados como Linked Data [12] está en constante cambio, debido a que corresponde a un dataset abierto y colaborativo que puede ser editado por sus usuarios. Además, datos adicionales son importados desde fuente externas constantemente, lo cual convierte a Wikidata en un dataset muy dinámico en ciertos aspectos. Dadas estas circunstancias, se puede decir que Wikidata tiene distintas versiones en el tiempo, donde los datos disponibles son distintos dependiendo del periodo de tiempo donde se consulten. Este hecho hace posible analizar una componente temporal de Wikidata y, por lo tanto, sería relevante estudiar la posibilidad de desarrollar un sistema de versionamiento y una metodología para construir consultas usando sólamente SPARQL base junto a un modelo RDF que sea capaz de representar datos versionados, manteniéndose abierto a recibir consultar sin utilizar herramientas o software especializado. En este trabajo proponemos y analizamos un sistema que permite, de manera eficiente, almacenar y realizar consultas sobre grafos RDF que mantienen un historial de cambios en el tiempo. Algunos sistemas que llevan a cabo objetivos similares ya existen. Sin embargo, dichos sistemas utilizan extensiones, índices especializados y herramientas fuera del estándar. Teniendo esto en mente, se añade la meta de construir un sistema que logre nuestro objetivo usando sólamente RDF y SPARQL base, con la intención de dar al problema una solución estándar y lista para usar en cualquier ambiente. Se hacen pruebas con varias alternativas para representar el dataset versionado. Cada una requiere su propio método para convertir consultas SPARQL, permitiendo la compatibilidad con los datasets construidos. Se mantiene una versión sin compresión para comparar los resultados obtenidos. Junto a ésta, se construyen representaciones basadas de deltas e intervalos. Se definen dos tipos de deltas: absolutos, donde cada versión del grafo se compara con la versión base (puede ser la más antigua o la más reciente), y secuenciales, donde cada versión se compara con la versión anterior a sí misma, manteniendo así una representación paso a paso de los cambios a través del tiempo. En general, la representación basada en intervalos tiene el mejor desempeño, excepto por el tiempo que toma su construcción. Sin embargo, dichos tiempos de construcción se pueden mejorar con pequeñas optimizaciones. Además, la representación de intervalos es la única que ofrece soporte parcial para property paths, mientras que el resto de las representaciones son completamente incompatibles con éstos dado que no posible aplicar un property path sobre múltiples named graphs.	es_ES
Patrocinador	dc.description.sponsorship	Instituto Milenio Fundamentos de los Datos	es_ES
Lenguage	dc.language.iso	en	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/	*
Keywords	dc.subject	RDF	es_ES
Keywords	dc.subject	RDF archive	es_ES
Título	dc.title	Versioned datasets and queries in RDF/SPARQL	es_ES
Document type	dc.type	Tesis
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES

Files in this item

Name:: Versioned-datasets-and-queries ...
Size:: 2.615Mb
Format:: PDF

Name:: TablaConten.pdf
Size:: 80.20Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile