Professor Advisor | dc.contributor.advisor | Bustos Cárdena, Benjamín | |
Professor Advisor | dc.contributor.advisor | Hogan, Aidan | |
Author | dc.contributor.author | Ferrada Aliaga, Sebastián Camilo | |
Associate professor | dc.contributor.other | Mendoza Rocha, Marcelo | |
Associate professor | dc.contributor.other | Arroyuelo Billiardi, Diego | |
Associate professor | dc.contributor.other | Gravier, Guillaume | |
Admission date | dc.date.accessioned | 2021-09-03T21:10:49Z | |
Available date | dc.date.available | 2021-09-03T21:10:49Z | |
Publication date | dc.date.issued | 2021 | |
Identifier | dc.identifier.uri | https://repositorio.uchile.cl/handle/2250/181812 | |
General note | dc.description | Tesis para optar al grado de Doctor en Computación | es_ES |
Abstract | dc.description.abstract | La Web de Datos apunta a que todos los datos en la Web estén estructurados, interconectados y sean entendibles por los computadores. Usualmente los esfuerzos del área están enfocados en datos textuales y enciclopédicos. Sin embargo, la Web es una rica colección de datos multimodales con múltiples formatos, codificaciones e idiomas con varios niveles de utilidad y veracidad. En este trabajo proponemos y desarrollamos varias modalidades para incluir esta diversidad en la Web de Datos, además de nuevos métodos para acceder y navegar a través de ellos.
En este trabajo estudiamos los diferentes problemas que surgen al considerar datos heterogéneos y cómo algoritmos, consultas y agrupamientos basados en similitud pueden ayudar a resolverlos. De esta manera, innovamos en tres áreas: (1) proponemos una nueva heurística para resolver reuniones por similitud aproximadas, (2) presentamos e implementamos una extensión a SPARQL (el lenguaje de consulta estándar para la Web de Datos) que incluye un operador de reunión por similitud, y (3) hacemos uso de estas técnicas para mejorar una base de datos enlazados de imágenes y para implementar una extensión de clústering para SPARQL.
Nuestra contribución se compone de lo siguiente: primero, reconocemos que las reuniones basadas en similitud a través de vecinos más cercanos son algorítmicamente más complejas de resolver que aquellas basadas en rangos, por lo tanto, proponemos una heurística aproximada con peor caso subcuadrático; segundo, acercamos la Web de Datos a las bases de datos multimedia definiendo detalladamente un nuevo operador algebraico para SPARQL con su respectiva sintaxis y semántica, proveyendo una implementación hecha sobre Apache Jena; tercero, basado en lo aprendido durante el trabajo, mejoramos IMGpedia, una base de datos enlazados que contiene relaciones de similitud calculadas estáticamente sobre las imágenes de Wikimedia Commons, de forma que los usuarios puedan realizar consultas más expresivas y calculen relaciones de similitud de forma dinámica; finalmente, implementamos una propuesta anterior que incluye un modificador de consultas SPARQL basado en clústering, actualizando su definición para que funcione con el estándar actual.
El valor de este trabajo reside en que, además de simplemente soportar nuevas operaciones y tipos de consulta, presenta el potencial para impactar a otras áreas dentro de la Web de Datos, como lo son la Integración de Datos, Enlazamiento de Entidades y Relajación de Consultas. Además prevemos que para que la Web de Datos se vuelva convencional, es necesario que se considere completamente la diversidad y complejidad de los datos en la Web, donde esta tesis puede ser el cimiento. | es_ES |
Patrocinador | dc.description.sponsorship | Instituto Milenio Fundamentos de los Datos y CONICYT-PFCHA 2017-21170616 | es_ES |
Lenguage | dc.language.iso | en | es_ES |
Publisher | dc.publisher | Universidad de Chile | es_ES |
Type of license | dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Chile | * |
Link to License | dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ | * |
Keywords | dc.subject | Web semántica | |
Keywords | dc.subject | Procesamiento de imagen - Técnicas digitales - Procesamiento de datos | |
Keywords | dc.subject | Algoritmos computacionales | |
Keywords | dc.subject | Heurística | |
Keywords | dc.subject | SPARQL | |
Título | dc.title | Similarity-based web queries | es_ES |
Document type | dc.type | Tesis | |
Cataloguer | uchile.catalogador | gmm | es_ES |
Department | uchile.departamento | Departamento de Ciencias de la Computación | es_ES |
Faculty | uchile.facultad | Facultad de Ciencias Físicas y Matemáticas | es_ES |