Índices comprimidos para la recuperación de documentos
Tesis
Publication date
2016Metadata
Show full item record
Cómo citar
Navarro Badino, Gonzalo
Cómo citar
Índices comprimidos para la recuperación de documentos
Author
Professor Advisor
Abstract
Document Retrieval (DR) aims at efficiently retrieving the documents from a collection that
are relevant to user queries. A challenging variant arises when the documents are arbitrary
strings and the collection is large. This scenario arises in DNA or protein sequence collections,
software repositories, multimedia sequences, East Asian languages, and others. Several DR
compressed data structures have been developed to face this challenge, offering different
space/time complexities. However, in practice the proposals with the best time performance
require too much extra space.
This thesis innovates in three aspects: (1) we build on Lempel-Ziv 1978 (LZ78) compres-
sion, instead of suffix arrays, to build DR indices; (2) we build on Lempel-Ziv 1977 (LZ77)
compression to handle highly repetitive collections; (3) we start the study of approximate
answers in this DR scenario, which is common in DR on natural language texts.
In this aspect, our main contribution is a new approach to DR based on LZ78 data
compression, offering structures to solve the two most fundamental problems in the DR
field: Document Listing (DL) and Top-k Retrieval. Our novel indices offer a competitive
space/time tradeoff for both situations. Besides, our proposals are also capable of retrieving
approximate answers, saving a lot of space and/or time compared with any structure that
returns the full answer for any of these problems.
Our second main contribution is the design of a structure for indexing highly repetitive
text collections that solves the DL problem, which is built on the LZ77 parsing. This is
the first attempt to solve DR problems using LZ77 data compression, which is the best
compression scheme for such collections.
On the other hand, we improve on basic data structures used, among others, in DR.
We present an alternative design to the best theoretical Range Minimum Queries solution,
maintaining its good complexities in space usage and query time. We obtain a simpler formula
that leads to the fastest and most compact practical implementation to date.
We also implemented various promising theoretical proposals for compressed suffix ar-
rays, for which no previous implementations existed. Finally, we design and implement a
compressed text index for highly repetitive collections that solves pattern matching, which
is based on the LZ77 compression, and which is the basis for our LZ77-based DR index. Document Retrieval (DR) apunta a la recuperación eficiente de documentos relevantes de una colección, para las consultas del usuario. Una variante que surge como desafío es cuando los documentos provienen de una gran colección de textos arbitrarios. Este escenario ocurre con colecciones de secuencias de ADN o proteínas, repositorios de software, secuencias multimedia e idiomas del Lejano Oriente, entre otros entornos. Varias estructuras de datos comprimidas para DR han sido desarrolladas a fin de hacer frente a este desafío, ofreciendo diferentes complejidades en tiempo/espacio. Sin embargo, en la práctica las propuestas con el mejor rendimiento en tiempo, requieren a su vez de demasiado espacio extra.
Esta tesis innova tres aspectos: (1) construímos índices para DR en base a la compresión Lempel-Ziv 1978 (LZ78) en lugar de arreglos de sufíjos; (2) manipulamos colecciones altamente repetitivas en base a la compresión Lempel-Ziv 1977 (LZ77); (3) comenzamos a estudiar cómo entregar respuestas aproximadas en dicho escenario de DR, lo cual es una práctica común en textos de lenguaje natural.
Nuestra principal contribución es un nuevo enfoque para DR basado en la compresión de datos LZ78, ofreciendo estructuras que resuelven los dos problemas fundamentales del campo de DR: Document Listing (DL) y Top-k Retrieval. Nuestros nuevos índices ofrecen desempeño competitivo en tiempo/espacio en ambos casos. Además nuestras propuestas también entregan respuestas aproximadas, ahorrando considerable espacio y/o tiempo comparado con cualquier otra estructura que entregue una respuesta completa a alguno de estos problemas.
También diseñamos una estructura que indexa colecciones de texto altamente repetitivo y resuelve el problema de DL, basada en la compresión LZ77. Este el primer intento dirigido a resolver un problema de DR utilizando compresión de datos LZ77, que además es el mejor esquema de compresión para dichas colecciones.
Por otro lado, realizamos mejoras sobre estructuras de datos básicas utilizadas en DR. Presentamos un diseño alternativo a la mejor solución teórica para Range Minimum Queries, manteniendo sus buenas complejidades en términos de espacio utilizado y tiempo de consulta. Logramos una fórmula más sencilla obteniendo como resultado la implementación más rápida y compacta conocida hasta hoy.
Además implementamos varias propuestas teóricas promisorias para el arreglo de sufijos, de las cuales no existen implementaciones previas. Finalmente, diseñamos e implementamos un índice de texto comprimido para colecciones altamente repetitivas que resuelve el pattern matching, el cual se basa en la compresión LZ77, y que además es la base para nuestro índice sobre el LZ77 para DR.
General note
Doctor en Ciencias, Mención Computación
Patrocinador
This work has been partially funded by Conicyt Ph.D Scholarship Chile; Fondecyt Grant 1-140976; Millennium Nucleus for Information and Coordination in Networks, and Basal Center for Biotechnology and Bioengineering
Identifier
URI: https://repositorio.uchile.cl/handle/2250/140860
Collections
The following license files are associated with this item: