Question answering over Wikidata using entity linking and neural semantic parsing
Tesis
Publication date
2021Metadata
Show full item record
Cómo citar
Hogan, Aidan
Cómo citar
Question answering over Wikidata using entity linking and neural semantic parsing
Author
Professor Advisor
Abstract
El objetivo de Question Answering sobre Knowledge Graphs (KGQA) es encontrar respuestas
para preguntas en lenguaje natural sobre un Knowledge Graph. Recientes enfoques
de KGQA basados en Neural Semantic Parsing adoptan un enfoque de Neural Machine
Translation (NMT), en el que la pregunta en lenguaje natural se traduce a un lenguaje de
consulta estructurado. En este contexto, queremos generar una consulta SPARQL que obtenga
las respuestas esperadas al ejecutarse en el endpoint del respectivo Knowledge Graph.
Sin embargo, el enfoque basado en NMT adolece del problema de falta de vocabulario, en
el que los términos de una pregunta pueden no haberse visto durante el entrenamiento, lo
que dificulta su traducción. Este fenómeno es particularmente problemático para las millones
de entidades que describen los grandes Knowledge Graphs. En este trabajo proponemos en
cambio un enfoque para KGQA que delega el procesamiento de entidades a sistemas de
Entity Linking (EL). Por lo tanto, en lugar de generar la consulta SPARQL completa, el
modelo de NMT se utiliza para crear un Query Template con placeholders que se llenan
con entidades identificadas en la etapa de EL. Se proponen sistemas EL tipo ensemble que
combinan resultados de varios sistemas EL individuales del estado del arte. Se propone un
enfoque de Slot Filling para decidir qué entidad ocupa qué placeholder, el cual combina el
uso de un modelo de Sequence Labeling con un algoritmo de llenado propuesto.
Evaluamos nuestro enfoque en el contexto de Wikidata para preguntas en inglés. Los
experimentos evalúan el rendimiento del sistema de Question Answering de principio a fin, así
como cada etapa de la generación de consultas SPARQL. Los resultados muestran que nuestro
enfoque supera al enfoque de NMT puro: aunque sigue existiendo una fuerte dependencia
en haber visto Query Templates similares durante el entrenamiento, los errores relacionados
con las entidades se reducen en gran medida.
La principal conclusión es que la combinación de Entity Linking y Neural Semantic Parsing
muestra una mejora prometedora en el rendimiento de la tarea KGQA en el contexto de
Wikidata. El trabajo futuro incluye experimentar con otros modelos de NMT como también
trabajar en la construcción de conjuntos de datos de entrenamiento de mejor calidad, agregar
nuevos sistemas EL para impulsar los sistemas tipo ensemble y probar nuevas heurísticas
para el proceso de Slot Filling.
General note
Tesis para optar al grado de Magíster en Ciencias, Mención Computación Memoria para optar al título de Ingeniero Civil en Computación
Patrocinador
Instituto Milenio Fundamento de los Datos
Identifier
URI: https://repositorio.uchile.cl/handle/2250/181846
Collections
The following license files are associated with this item: