Towards a fine-grained entity linking approach
Author
Professor Advisor
Abstract
La tarea Entity Linking (EL) implica vincular menciones de entidades en un texto con su identificador correspondiente en una base de conocimiento (KB) como Wikipedia, BabelNet, DBpedia, Freebase, Wikidata, YAGO, etc. Se han propuesto numerosas técnicas para abordar esta tarea a lo largo de los años. Sin embargo, no todos los trabajos adoptan la misma convención con respecto a las entidades a las que debe desambiguar la tarea EL; por ejemplo, mientras que algunos trabajos EL apuntan a entidades comunes como "entrevista" que aparece en la base de conocimientos, otros solo apuntan a entidades nombradas como "Michael Jackson". La falta de consenso sobre este tema (y otros) complica la investigación sobre la tarea EL; por ejemplo, ¿cómo se puede evaluar y comparar el rendimiento de los sistemas EL cuando los sistemas pueden apuntar a diferentes tipos de entidades? Si bien los enfoques tradicionales de EL se han centrado principalmente en textos en inglés, este problema no afecta solo al inglés, sino también a cada idioma.
En esta tesis, primero destacamos la importancia de formalizar el concepto de "entidad" y los beneficios que traería a la comunidad de Entity Linking, en particular, los relacionados con la construcción y evaluación de gold standards con fines de evaluación. Motivados por la escasez de datasets anotados, incluso más en escenarios multilingües, proponemos VoxEL: un gold standard anotado manualmente para EL multilingüe con el mismo texto en cinco idiomas europeos. Se selecionaron cinco sistemas multilingües para comparar sus comportamientos. En general, nuestros resultados identifican cómo se comparan los resultados de diferentes idiomas y, además, sugieren que la traducción automática es ahora una alternativa competitiva al EL multilingüe.
El evidente desacuerdo sobre "¿Cuáles entidades se deben enlazar?" es también consecuencia de las diferentes aplicaciones que existen de EL. En lugar de proponer soluciones aisladas, nuestra posición es crear una definición más granular que cubra la mayoría de las necesidades actuales. En esta línea, proponemos un esquema de categorización detallado para EL que distingue diferentes tipos de menciones y enlaces. Proponemos una extensión del vocabulario actual que permite expresar tales categorías en conjuntos de datos de referencia de EL. Luego volvemos a etiquetar (subconjuntos de) tres conjuntos de datos EL populares de acuerdo con nuestro novedoso esquema de categorización, donde además discutimos una herramienta utilizada para semi-automatizar el proceso de etiquetado. A continuación, presentamos los resultados de desempeño de cinco sistemas EL para categorías individuales. Ampliamos aún más los sistemas EL con componentes Word Sense Disambiguation y Coreference Resolution, creando versiones iniciales de lo que llamamos sistemas Fine-Grained Entity Linking (FEL), midiendo el impacto en el rendimiento por categoría. Finalmente, proponemos una medida de rendimiento configurable basada en conjuntos difusos que se pueden adaptar a diferentes escenarios de aplicación. Nuestros resultados destacan una falta de consenso sobre los objetivos de la tarea EL, muestran que los sistemas evaluados efectivamente se dirigen a diferentes entidades y revelan además algunos desafíos abiertos para la tarea (F) EL con respecto a formas más complejas de referencia para entidades.
General note
Tesis para optar al grado de Doctor en Computación
Patrocinador
CONICYT-PCHA/Doctorado Nacional/2016-21160017
Identifier
URI: https://repositorio.uchile.cl/handle/2250/181834
Collections
The following license files are associated with this item: