Wikidata es una base de datos de grafos, la cual está formada por entidades (nodos) y relaciones (aristas) que unen las entidades. En el contexto de este tipo de bases de datos, hay varias aplicaciones que dependen de una noción de similitud entre entidades que describen el grafo, por ejemplo, para proveer recomendaciones al usuario. Una medida global de similitud intenta establecer un valor numérico a cada par posible de entidades; dicho valor determina la similitud entre dos entidades. Existen medidas de similitud para grafos con características diferentes a Wikidata; en particular, las medidas existentes no consideran toda la información
disponible en Wikidata, como por ejemplo las etiquetas de las aristas que denotan diferentes tipos de relaciones.
En este trabajo se adapta y aplica una medida de similitud bastante utilizada en la actualidad llamada SimRank; se analiza la calidad de sus resultados al ser aplicada en Wikidata, para luego identificar las debilidades y fortalezas de esta medida. Además de hacer el análisis anterior, se proponen 3 medidas de similitud para ser aplicadas a Wikidata; dichas medidas logran aproximarse en calidad de resultados a SimRank, sin embargo son mejores en rendimiento computacional.
Seguidamente se comparan estas medidas (tres propuestas y SimRank) con dos servicios de recomendación, para intentar analizar si los valores devueltos por las medidas de similitud se aproximan a la percepción de similitud de las personas.
Esta investigación comienza definiendo formalmente las medidas de similitud propuestas, resaltando las fortalezas y debilidades de cada una de ellas. Además se presenta una implementación en Spark para cada una de las medidas; dichas implementaciones fueron utilizadas para realizar los experimentos de las siguientes secciones.
Finalmente se analiza el rendimiento y calidad de los resultados de cada una de las medidas propuestas, para luego continuar a comparar estas medidas con SimRank, y poder concluir cuáles son los aspectos en que las medidas propuestas superan esta medida base.
es_ES
Patrocinador
dc.description.sponsorship
Instituto Milenio de Fundamentos de los Datos
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States