Estructuras de datos sucintas para recuperación de documentos

Valenzuela Serra, Daniel Alejandro

Professor Advisor	dc.contributor.advisor	Navarro Badino, Gonzalo
Author	dc.contributor.author	Valenzuela Serra, Daniel Alejandro
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas
Staff editor	dc.contributor.editor	Departamento de Ciencias de la Computación
Associate professor	dc.contributor.other	Bustos Cárdenas, Benjamín
Associate professor	dc.contributor.other	Pérez Rojas, Jorge
Associate professor	dc.contributor.other	Arroyuelo Billiardi, Diego Gastón
Admission date	dc.date.accessioned	2013-04-26T15:25:39Z
Available date	dc.date.available	2013-04-26T15:25:39Z
Publication date	dc.date.issued	2013
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/113011
General note	dc.description	Magíster en Ciencias, Mención Computación
Abstract	dc.description.abstract	La recuperación de documentos consiste en, dada una colección de documentos y un patrón de consulta, obtener los documentos más relevantes para la consulta. Cuando los documentos están disponibles con anterioridad a las consultas, es posible construir un índice que permita, al momento de realizar las consultas, obtener documentos relevantes en tiempo razonable. Contar con índices que resuelvan un problema como éste es fundamental en áreas como recuperación de la información, minería de datos y bioinformática, entre otros. Cuando el texto que se indexa es lenguaje natural, la solución paradigmática corresponde al índice invertido. Sin embargo, los problemas de recuperación de documentos emergen también en escenarios en que el texto y los patrones de consulta pueden ser secuencias generales de caracteres, como lenguajes orientales, bases de datos multimedia, secuencias genómicas, etc. En estos escenarios los índices invertidos clásicos no se aplican con el mismo éxito. Si bien existen soluciones que requieren espacio lineal en este escenario de texto general, el espacio que utilizan es un problema importante: estas soluciones pueden utilizar más de 20 veces el espacio de la colección. Esta tesis presenta nuevos algoritmos y estructuras de datos para resolver algunos pro- blemas fundamentales para recuperación de documentos en colecciones de texto general, en espacio reducido. Más específicamente, se ofrecen nuevas soluciones al problema de document listing con frecuencias, y recuperación de los top-k documentos. Como subproducto, se de- sarrolló un nuevo esquema de compresión para bitmaps repetitivos que puede ser de interés por sí mismo. También se presentan implementaciones de las nuevas propuestas, y de trabajos relaciona- dos. Estudiamos nuestros algoritmos desde un punto de vista práctico y los comparamos con el estado del arte. Nuestros experimentos muestran que nuestras soluciones para document listing reducen el espacio de la mejor solución existente en un 40%, con un impacto mínimo en los tiempos de consulta. Para recuperación de los top-k documentos, también se redujo el espacio de la mejor solución existente en un 40% en la práctica, manteniendo los tiempos de consulta. Así mismo, mejoramos el tiempo de esta solución hasta en un factor de 100, a expensas de usar un bit extra por carácter. Nuestras soluciones son capaces de retornar los top-10 a top-100 documentos en el orden de milisegundos. Nuestras nuevas soluciones dominan la mayor parte del mapa espacio-tiempo, apuntando a ser el estándar contra el cual comparar la investigación futura.	es_CL
Lenguage	dc.language.iso	es	es_CL
Publisher	dc.publisher	Universidad de Chile	es_CL
Keywords	dc.subject	Algoritmos computacionales	es_CL
Keywords	dc.subject	Estructuras de datos (Ciencia de la computación)	es_CL
Keywords	dc.subject	Estructura de datos comprimidos	es_CL
Keywords	dc.subject	Document retrieval	es_CL
Título	dc.title	Estructuras de datos sucintas para recuperación de documentos	es_CL
Document type	dc.type	Tesis

Files in this item

Name:: cf-valenzuela_ds.pdf
Size:: 1.776Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record