Semi-automatic extraction of RDF triples from Wikipedia tables

Wikipedia es una enciclopedia en línea, multilingüe y gratuita disponible en 339 ediciones. La edición de Wikipedia en inglés actualmente cuenta con más de 6,7 millones de artículos y 46 millones de usuarios registrados. Una gran cantidad de información en Wikipedia se encuentra contenida en tablas. El problema radica en el gran número de tablas en Wikipedia, así como en la gran cantidad de tipos de esquemas de tablas en un formato semi-estructurado. En consecuencia, extraer manualmente información estructurada de estas tablas se vuelve impráctico, y automatizar este proceso se vuelve muy complejo. Para abordar este problema, proponemos una solución que involucra el uso de clusters de tablas de Wikipedia agrupadas por encabezados similares y la selección de un lenguaje de mapeo adecuado para transformar la información de esas tablas en información estructurada. En este estudio, realizamos un análisis comparativo de varios lenguajes de mapeo y sus respectivos procesadores usados para la extracción de relaciones semánticas de las tablas de Wikipedia. El objetivo principal es extraer información semántica de las tablas de Wikipedia con alta precisión a gran escala, con el objetivo de integrar el conocimiento resultante de manera más efectiva en bases de conocimiento existentes, como Wikidata. Si bien estudios previos han comparado algunos lenguajes de mapeo y procesadores, ninguno ha abordado este corpus en particular. Nuestra comparación de diferentes procesadores aplicados a nuestro data corpus destaca a Tarql como el procesador más productivo, generando 984,260 triples, de los cuales 791,021 son nuevos en Wikidata. Además, al examinar 500 relaciones aleatorias extraídas por Tarql de los 10 clusters más grandes, obtuvimos como resultado una precisión promedio del 84.6%. Sin embargo, como la imprecisión está principalmente asociada con clusters específicos de tablas, excluir estos clusters podría mejorar significativamente la precisión lograda. Métodos automatizados previos lograron una precisión del 81.5% y del 70%, lo que indica una mejora en la precisión con nuestro enfoque.

Wikipedia is a multilingual online free encyclopedia available in 339 language editions. English Wikipedia currently has more than 6.7 million articles and 46 million registered users. A huge amount of information in Wikipedia is contained in Wikipedia tables. The problem lies in the large number of tables on Wikipedia, as well as the presence of multiple types of table schemas in a semi-structured format. Consequently, manually extracting structured information from these tables becomes impractical, and automating this process becomes very complex. To address this issue, we propose a solution that involves using clusters of Wikipedia tables grouped by similar headers based on previous research and selecting a suitable mapping language to transform information from those tables into structured information. In this study, we conduct a comparative analysis of various mapping languages and processors suitable for semantic relation extraction from Wikipedia tables. The main goal is to extract semantic information from Wikipedia tables with high precision at large scale, aiming to integrate the resulting knowledge more effectively into existing knowledge bases, such as Wikidata. While previous studies have compared some mapping languages and processors, none have addressed this particular data corpus. Our comparison of different tools applied to our data corpus highlights Tarql as the most productive processor, generating 984,260 triples, with 791,021 being novel in Wikidata. Furthermore, sampling 50 random relations extracted by Tarql from each of the top 10 largest clusters, assessing 500 relations in total, yielded an average precision of 84.6%. However, as the imprecision is primarily associated with specific clusters, excluding these clusters could significantly improve the precision achieved. Previous automated methods achieved a precision of 81.5% and 70%, indicating an improvement in precision with our approach.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Tesis para optar al grado de Magíster en Ciencias, Mención Computación

Memoria para optar al grado de Ingeniera Civil en Computación

Patrocinador

Este trabajo ha sido parcialmente financiado por ANID – Millennium Science Initiative Program – Code ICN17 002 y FONDECYT Regular N° 1181896

Identifier

URI: https://repositorio.uchile.cl/handle/2250/204304

Collections