Semi-automatic extraction of RDF triples from Wikipedia tables

Concha Sepúlveda, Adriana Cecilia.

Professor Advisor	dc.contributor.advisor	Hogan, Aidan
Author	dc.contributor.author	Concha Sepúlveda, Adriana Cecilia.
Associate professor	dc.contributor.other	Bastarrica Piñeyro, María Cecilia
Associate professor	dc.contributor.other	Saavedra Rondo, José
Associate professor	dc.contributor.other	Vrgoc, Domagoj
Admission date	dc.date.accessioned	2025-04-15T15:50:53Z
Available date	dc.date.available	2025-04-15T15:50:53Z
Publication date	dc.date.issued	2025
Identifier	dc.identifier.other	10.58011/r6y4-n642
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/204304
Abstract	dc.description.abstract	Wikipedia es una enciclopedia en línea, multilingüe y gratuita disponible en 339 ediciones. La edición de Wikipedia en inglés actualmente cuenta con más de 6,7 millones de artículos y 46 millones de usuarios registrados. Una gran cantidad de información en Wikipedia se encuentra contenida en tablas. El problema radica en el gran número de tablas en Wikipedia, así como en la gran cantidad de tipos de esquemas de tablas en un formato semi-estructurado. En consecuencia, extraer manualmente información estructurada de estas tablas se vuelve impráctico, y automatizar este proceso se vuelve muy complejo. Para abordar este problema, proponemos una solución que involucra el uso de clusters de tablas de Wikipedia agrupadas por encabezados similares y la selección de un lenguaje de mapeo adecuado para transformar la información de esas tablas en información estructurada. En este estudio, realizamos un análisis comparativo de varios lenguajes de mapeo y sus respectivos procesadores usados para la extracción de relaciones semánticas de las tablas de Wikipedia. El objetivo principal es extraer información semántica de las tablas de Wikipedia con alta precisión a gran escala, con el objetivo de integrar el conocimiento resultante de manera más efectiva en bases de conocimiento existentes, como Wikidata. Si bien estudios previos han comparado algunos lenguajes de mapeo y procesadores, ninguno ha abordado este corpus en particular. Nuestra comparación de diferentes procesadores aplicados a nuestro data corpus destaca a Tarql como el procesador más productivo, generando 984,260 triples, de los cuales 791,021 son nuevos en Wikidata. Además, al examinar 500 relaciones aleatorias extraídas por Tarql de los 10 clusters más grandes, obtuvimos como resultado una precisión promedio del 84.6%. Sin embargo, como la imprecisión está principalmente asociada con clusters específicos de tablas, excluir estos clusters podría mejorar significativamente la precisión lograda. Métodos automatizados previos lograron una precisión del 81.5% y del 70%, lo que indica una mejora en la precisión con nuestro enfoque.	es_ES
Abstract	dc.description.abstract	Wikipedia is a multilingual online free encyclopedia available in 339 language editions. English Wikipedia currently has more than 6.7 million articles and 46 million registered users. A huge amount of information in Wikipedia is contained in Wikipedia tables. The problem lies in the large number of tables on Wikipedia, as well as the presence of multiple types of table schemas in a semi-structured format. Consequently, manually extracting structured information from these tables becomes impractical, and automating this process becomes very complex. To address this issue, we propose a solution that involves using clusters of Wikipedia tables grouped by similar headers based on previous research and selecting a suitable mapping language to transform information from those tables into structured information. In this study, we conduct a comparative analysis of various mapping languages and processors suitable for semantic relation extraction from Wikipedia tables. The main goal is to extract semantic information from Wikipedia tables with high precision at large scale, aiming to integrate the resulting knowledge more effectively into existing knowledge bases, such as Wikidata. While previous studies have compared some mapping languages and processors, none have addressed this particular data corpus. Our comparison of different tools applied to our data corpus highlights Tarql as the most productive processor, generating 984,260 triples, with 791,021 being novel in Wikidata. Furthermore, sampling 50 random relations extracted by Tarql from each of the top 10 largest clusters, assessing 500 relations in total, yielded an average precision of 84.6%. However, as the imprecision is primarily associated with specific clusters, excluding these clusters could significantly improve the precision achieved. Previous automated methods achieved a precision of 81.5% and 70%, indicating an improvement in precision with our approach.	es_ES
Patrocinador	dc.description.sponsorship	Este trabajo ha sido parcialmente financiado por ANID – Millennium Science Initiative Program – Code ICN17 002 y FONDECYT Regular N° 1181896	es_ES
Lenguage	dc.language.iso	en	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	Semi-automatic extraction of RDF triples from Wikipedia tables	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	chb	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil en Computación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Ciencias, Mención Computación	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al grado de Ingeniera Civil en Computación

Files in this item

Name:: Semi-automatic-extraction-of-R ...
Size:: 5.904Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States