Semi-automatic extraction of RDF triples from Wikipedia tables
Tesis

Access note
Acceso abierto
Publication date
2025Metadata
Show full item record
Cómo citar
Hogan, Aidan
Cómo citar
Semi-automatic extraction of RDF triples from Wikipedia tables
Professor Advisor
Abstract
Wikipedia es una enciclopedia en línea, multilingüe y gratuita disponible en 339 ediciones. La edición de Wikipedia en inglés actualmente cuenta con más de 6,7 millones de artículos y 46 millones de usuarios registrados.
Una gran cantidad de información en Wikipedia se encuentra contenida en tablas. El problema radica en el gran número de tablas en Wikipedia, así como en la gran cantidad de tipos de esquemas de tablas en un formato semi-estructurado. En consecuencia, extraer manualmente información estructurada de estas tablas se vuelve impráctico, y automatizar este proceso se vuelve muy complejo.
Para abordar este problema, proponemos una solución que involucra el uso de clusters de tablas de Wikipedia agrupadas por encabezados similares y la selección de un lenguaje de mapeo adecuado para transformar la información de esas tablas en información estructurada.
En este estudio, realizamos un análisis comparativo de varios lenguajes de mapeo y sus respectivos procesadores usados para la extracción de relaciones semánticas de las tablas de Wikipedia. El objetivo principal es extraer información semántica de las tablas de Wikipedia con alta precisión a gran escala, con el objetivo de integrar el conocimiento resultante de manera más efectiva en bases de conocimiento existentes, como Wikidata.
Si bien estudios previos han comparado algunos lenguajes de mapeo y procesadores, ninguno ha abordado este corpus en particular. Nuestra comparación de diferentes procesadores aplicados a nuestro data corpus destaca a Tarql como el procesador más productivo, generando 984,260 triples, de los cuales 791,021 son nuevos en Wikidata. Además, al examinar 500 relaciones aleatorias extraídas por Tarql de los 10 clusters más grandes, obtuvimos como resultado una precisión promedio del 84.6%. Sin embargo, como la imprecisión está principalmente asociada con clusters específicos de tablas, excluir estos clusters podría mejorar significativamente la precisión lograda. Métodos automatizados previos lograron una precisión del 81.5% y del 70%, lo que indica una mejora en la precisión con nuestro enfoque. Wikipedia is a multilingual online free encyclopedia available in 339 language editions. English Wikipedia currently has more than 6.7 million articles and 46 million registered users.
A huge amount of information in Wikipedia is contained in Wikipedia tables. The problem
lies in the large number of tables on Wikipedia, as well as the presence of multiple types of
table schemas in a semi-structured format. Consequently, manually extracting structured
information from these tables becomes impractical, and automating this process becomes
very complex.
To address this issue, we propose a solution that involves using clusters of Wikipedia
tables grouped by similar headers based on previous research and selecting a suitable mapping
language to transform information from those tables into structured information.
In this study, we conduct a comparative analysis of various mapping languages and
processors suitable for semantic relation extraction from Wikipedia tables. The main goal
is to extract semantic information from Wikipedia tables with high precision at large scale,
aiming to integrate the resulting knowledge more effectively into existing knowledge bases,
such as Wikidata.
While previous studies have compared some mapping languages and processors, none
have addressed this particular data corpus. Our comparison of different tools applied to our
data corpus highlights Tarql as the most productive processor, generating 984,260 triples,
with 791,021 being novel in Wikidata. Furthermore, sampling 50 random relations extracted
by Tarql from each of the top 10 largest clusters, assessing 500 relations in total, yielded an
average precision of 84.6%. However, as the imprecision is primarily associated with specific
clusters, excluding these clusters could significantly improve the precision achieved. Previous
automated methods achieved a precision of 81.5% and 70%, indicating an improvement in
precision with our approach.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias, Mención Computación Memoria para optar al grado de Ingeniera Civil en Computación
Patrocinador
Este trabajo ha sido parcialmente financiado por ANID – Millennium Science Initiative
Program – Code ICN17 002 y FONDECYT Regular N° 1181896
Identifier
URI: https://repositorio.uchile.cl/handle/2250/204304
Collections
The following license files are associated with this item: