Los datos enlazados describen un método de publicación de datos estructurados. Son utilizados para compartir información de una manera que pueda ser leída automáticamente por ordenadores. Esto permite que sean conectados y consultados datos de diferentes fuentes.
El problema de estos datos es que para acceder a ellos, se necesitan lenguajes especializados, como SPARQL. Generalmente, el usuario común no está familiarizado con este lenguaje, o con la semántica empleada en los datos enlazados, produciéndose una brecha que impide la comunicación entre el usuario y estos datos. Para mitigar este problema, se han creado sistemas de respuesta a preguntas en lenguaje natural, transformando expresiones en lenguaje natural a consultas estructuradas en lenguajes especializados.
Las soluciones del estado del arte más recientes aplican un enfoque neuronal y traducen directamente el lenguaje natural a SPARQL. El problema de estas soluciones es la necesidad de grandes datasets para poder entrenar los modelos, utilizando cerca del orden de millones de instancias. Actualmente, no se tiene una colección de datos de tal volumen, dificultando el avance de estas tecnologías.
El sistema desarrollado en este trabajo, Templet, consiste en una plataforma web basada en plantillas y autocompletado, permitiendo consultar preguntas en lenguaje natural a partir de otras preexistentes, pudiendo hacer uso de todas las entidades disponibles en Wikidata (una de las bases de conocimiento de datos enlazados estructurados más importante). Las plantillas son obtenidas a partir de la colección de preguntas disponible en QAWiki, un repositorio editado en colaboración de preguntas en lenguaje natural y sus respectivas consultas en SPARQL, que actualmente almacena más de 370 preguntas.
El propósito de Templet es poder generar distintos pares de preguntas y consultas a partir de una plantilla. Además, tiene como finalidad permitir que personas no especializadas puedan navegar sobre los datos enlazados. Asimismo, tiene como propósito generar interés en QAWiki. De esta forma, se puede expandir su uso y contribución, logrando una colección más amplia y diversa de pares de preguntas y consultas, permitiendo el avance de los modelos del estado del arte que necesitan grandes datasets de preguntas y consultas.
El sistema se implantó en el entorno de producción y fue probado por múltiples usuarios reales, obteniendo observaciones positivas. Logró cumplir con los objetivos establecidos y el comportamiento esperado, aunque existe trabajo futuro que puede mejorar la usabilidad del sistema.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States