Show simple item record

Professor Advisordc.contributor.advisorHogan, Aidan
Professor Advisordc.contributor.advisorPoblete Labra, Bárbara
Authordc.contributor.authorRosales Méndez, Henry 
Associate professordc.contributor.otherBravo Márquez, Felipe
Associate professordc.contributor.otherGutiérrez Gallardo, Claudio
Associate professordc.contributor.otherWeikum, Gerhard
Admission datedc.date.accessioned2021-09-06T14:18:44Z
Available datedc.date.available2021-09-06T14:18:44Z
Publication datedc.date.issued2021
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/181834
General notedc.descriptionTesis para optar al grado de Doctor en Computaciónes_ES
Abstractdc.description.abstractLa tarea Entity Linking (EL) implica vincular menciones de entidades en un texto con su identificador correspondiente en una base de conocimiento (KB) como Wikipedia, BabelNet, DBpedia, Freebase, Wikidata, YAGO, etc. Se han propuesto numerosas técnicas para abordar esta tarea a lo largo de los años. Sin embargo, no todos los trabajos adoptan la misma convención con respecto a las entidades a las que debe desambiguar la tarea EL; por ejemplo, mientras que algunos trabajos EL apuntan a entidades comunes como "entrevista" que aparece en la base de conocimientos, otros solo apuntan a entidades nombradas como "Michael Jackson". La falta de consenso sobre este tema (y otros) complica la investigación sobre la tarea EL; por ejemplo, ¿cómo se puede evaluar y comparar el rendimiento de los sistemas EL cuando los sistemas pueden apuntar a diferentes tipos de entidades? Si bien los enfoques tradicionales de EL se han centrado principalmente en textos en inglés, este problema no afecta solo al inglés, sino también a cada idioma. En esta tesis, primero destacamos la importancia de formalizar el concepto de "entidad" y los beneficios que traería a la comunidad de Entity Linking, en particular, los relacionados con la construcción y evaluación de gold standards con fines de evaluación. Motivados por la escasez de datasets anotados, incluso más en escenarios multilingües, proponemos VoxEL: un gold standard anotado manualmente para EL multilingüe con el mismo texto en cinco idiomas europeos. Se selecionaron cinco sistemas multilingües para comparar sus comportamientos. En general, nuestros resultados identifican cómo se comparan los resultados de diferentes idiomas y, además, sugieren que la traducción automática es ahora una alternativa competitiva al EL multilingüe. El evidente desacuerdo sobre "¿Cuáles entidades se deben enlazar?" es también consecuencia de las diferentes aplicaciones que existen de EL. En lugar de proponer soluciones aisladas, nuestra posición es crear una definición más granular que cubra la mayoría de las necesidades actuales. En esta línea, proponemos un esquema de categorización detallado para EL que distingue diferentes tipos de menciones y enlaces. Proponemos una extensión del vocabulario actual que permite expresar tales categorías en conjuntos de datos de referencia de EL. Luego volvemos a etiquetar (subconjuntos de) tres conjuntos de datos EL populares de acuerdo con nuestro novedoso esquema de categorización, donde además discutimos una herramienta utilizada para semi-automatizar el proceso de etiquetado. A continuación, presentamos los resultados de desempeño de cinco sistemas EL para categorías individuales. Ampliamos aún más los sistemas EL con componentes Word Sense Disambiguation y Coreference Resolution, creando versiones iniciales de lo que llamamos sistemas Fine-Grained Entity Linking (FEL), midiendo el impacto en el rendimiento por categoría. Finalmente, proponemos una medida de rendimiento configurable basada en conjuntos difusos que se pueden adaptar a diferentes escenarios de aplicación. Nuestros resultados destacan una falta de consenso sobre los objetivos de la tarea EL, muestran que los sistemas evaluados efectivamente se dirigen a diferentes entidades y revelan además algunos desafíos abiertos para la tarea (F) EL con respecto a formas más complejas de referencia para entidades.es_ES
Patrocinadordc.description.sponsorshipCONICYT-PCHA/Doctorado Nacional/2016-21160017es_ES
Lenguagedc.language.isoenes_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectWeb semántica
Keywordsdc.subjectSoftware computacional - Control de calidad
Keywordsdc.subjectProcesamiento de textos (Ciencia de la computación)
Keywordsdc.subjectIdiomas
Títulodc.titleTowards a fine-grained entity linking approaches_ES
Document typedc.typeTesis
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile