Similarity-based web queries
Author
Professor Advisor
Abstract
La Web de Datos apunta a que todos los datos en la Web estén estructurados, interconectados y sean entendibles por los computadores. Usualmente los esfuerzos del área están enfocados en datos textuales y enciclopédicos. Sin embargo, la Web es una rica colección de datos multimodales con múltiples formatos, codificaciones e idiomas con varios niveles de utilidad y veracidad. En este trabajo proponemos y desarrollamos varias modalidades para incluir esta diversidad en la Web de Datos, además de nuevos métodos para acceder y navegar a través de ellos.
En este trabajo estudiamos los diferentes problemas que surgen al considerar datos heterogéneos y cómo algoritmos, consultas y agrupamientos basados en similitud pueden ayudar a resolverlos. De esta manera, innovamos en tres áreas: (1) proponemos una nueva heurística para resolver reuniones por similitud aproximadas, (2) presentamos e implementamos una extensión a SPARQL (el lenguaje de consulta estándar para la Web de Datos) que incluye un operador de reunión por similitud, y (3) hacemos uso de estas técnicas para mejorar una base de datos enlazados de imágenes y para implementar una extensión de clústering para SPARQL.
Nuestra contribución se compone de lo siguiente: primero, reconocemos que las reuniones basadas en similitud a través de vecinos más cercanos son algorítmicamente más complejas de resolver que aquellas basadas en rangos, por lo tanto, proponemos una heurística aproximada con peor caso subcuadrático; segundo, acercamos la Web de Datos a las bases de datos multimedia definiendo detalladamente un nuevo operador algebraico para SPARQL con su respectiva sintaxis y semántica, proveyendo una implementación hecha sobre Apache Jena; tercero, basado en lo aprendido durante el trabajo, mejoramos IMGpedia, una base de datos enlazados que contiene relaciones de similitud calculadas estáticamente sobre las imágenes de Wikimedia Commons, de forma que los usuarios puedan realizar consultas más expresivas y calculen relaciones de similitud de forma dinámica; finalmente, implementamos una propuesta anterior que incluye un modificador de consultas SPARQL basado en clústering, actualizando su definición para que funcione con el estándar actual.
El valor de este trabajo reside en que, además de simplemente soportar nuevas operaciones y tipos de consulta, presenta el potencial para impactar a otras áreas dentro de la Web de Datos, como lo son la Integración de Datos, Enlazamiento de Entidades y Relajación de Consultas. Además prevemos que para que la Web de Datos se vuelva convencional, es necesario que se considere completamente la diversidad y complejidad de los datos en la Web, donde esta tesis puede ser el cimiento.
General note
Tesis para optar al grado de Doctor en Computación
Patrocinador
Instituto Milenio Fundamentos de los Datos y CONICYT-PFCHA 2017-21170616
Identifier
URI: https://repositorio.uchile.cl/handle/2250/181812
Collections
The following license files are associated with this item: