Show simple item record

Professor Advisordc.contributor.advisorHogan, Aidan
Authordc.contributor.authorConcha Sepúlveda, Adriana Cecilia.
Associate professordc.contributor.otherBastarrica Piñeyro, María Cecilia
Associate professordc.contributor.otherSaavedra Rondo, José
Associate professordc.contributor.otherVrgoc, Domagoj
Admission datedc.date.accessioned2025-04-15T15:50:53Z
Available datedc.date.available2025-04-15T15:50:53Z
Publication datedc.date.issued2025
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/204304
Abstractdc.description.abstractWikipedia es una enciclopedia en línea, multilingüe y gratuita disponible en 339 ediciones. La edición de Wikipedia en inglés actualmente cuenta con más de 6,7 millones de artículos y 46 millones de usuarios registrados. Una gran cantidad de información en Wikipedia se encuentra contenida en tablas. El problema radica en el gran número de tablas en Wikipedia, así como en la gran cantidad de tipos de esquemas de tablas en un formato semi-estructurado. En consecuencia, extraer manualmente información estructurada de estas tablas se vuelve impráctico, y automatizar este proceso se vuelve muy complejo. Para abordar este problema, proponemos una solución que involucra el uso de clusters de tablas de Wikipedia agrupadas por encabezados similares y la selección de un lenguaje de mapeo adecuado para transformar la información de esas tablas en información estructurada. En este estudio, realizamos un análisis comparativo de varios lenguajes de mapeo y sus respectivos procesadores usados para la extracción de relaciones semánticas de las tablas de Wikipedia. El objetivo principal es extraer información semántica de las tablas de Wikipedia con alta precisión a gran escala, con el objetivo de integrar el conocimiento resultante de manera más efectiva en bases de conocimiento existentes, como Wikidata. Si bien estudios previos han comparado algunos lenguajes de mapeo y procesadores, ninguno ha abordado este corpus en particular. Nuestra comparación de diferentes procesadores aplicados a nuestro data corpus destaca a Tarql como el procesador más productivo, generando 984,260 triples, de los cuales 791,021 son nuevos en Wikidata. Además, al examinar 500 relaciones aleatorias extraídas por Tarql de los 10 clusters más grandes, obtuvimos como resultado una precisión promedio del 84.6%. Sin embargo, como la imprecisión está principalmente asociada con clusters específicos de tablas, excluir estos clusters podría mejorar significativamente la precisión lograda. Métodos automatizados previos lograron una precisión del 81.5% y del 70%, lo que indica una mejora en la precisión con nuestro enfoque.es_ES
Abstractdc.description.abstractWikipedia is a multilingual online free encyclopedia available in 339 language editions. English Wikipedia currently has more than 6.7 million articles and 46 million registered users. A huge amount of information in Wikipedia is contained in Wikipedia tables. The problem lies in the large number of tables on Wikipedia, as well as the presence of multiple types of table schemas in a semi-structured format. Consequently, manually extracting structured information from these tables becomes impractical, and automating this process becomes very complex. To address this issue, we propose a solution that involves using clusters of Wikipedia tables grouped by similar headers based on previous research and selecting a suitable mapping language to transform information from those tables into structured information. In this study, we conduct a comparative analysis of various mapping languages and processors suitable for semantic relation extraction from Wikipedia tables. The main goal is to extract semantic information from Wikipedia tables with high precision at large scale, aiming to integrate the resulting knowledge more effectively into existing knowledge bases, such as Wikidata. While previous studies have compared some mapping languages and processors, none have addressed this particular data corpus. Our comparison of different tools applied to our data corpus highlights Tarql as the most productive processor, generating 984,260 triples, with 791,021 being novel in Wikidata. Furthermore, sampling 50 random relations extracted by Tarql from each of the top 10 largest clusters, assessing 500 relations in total, yielded an average precision of 84.6%. However, as the imprecision is primarily associated with specific clusters, excluding these clusters could significantly improve the precision achieved. Previous automated methods achieved a precision of 81.5% and 70%, indicating an improvement in precision with our approach.es_ES
Patrocinadordc.description.sponsorshipEste trabajo ha sido parcialmente financiado por ANID – Millennium Science Initiative Program – Code ICN17 002 y FONDECYT Regular N° 1181896es_ES
Lenguagedc.language.isoenes_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleSemi-automatic extraction of RDF triples from Wikipedia tableses_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES
uchile.carrerauchile.carreraIngeniería Civil en Computaciónes_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Ciencias, Mención Computaciónes_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al grado de Ingeniera Civil en Computación


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States