Combinado Indexación y Compresión en Texto Semi-Estructurado

Sologuren Gutiérrez, Felipe Leopoldo

Professor Advisor	dc.contributor.advisor	Navarro Badino, Gonzalo	es_CL
Author	dc.contributor.author	Sologuren Gutiérrez, Felipe Leopoldo	es_CL
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas	es_CL
Staff editor	dc.contributor.editor	Departamento de Ciencias de la Computación	es_CL
Associate professor	dc.contributor.other	Bustos Cárdenas, Benjamín
Associate professor	dc.contributor.other	Paredes Moraleda, Rodrigo
Admission date	dc.date.accessioned	2012-09-12T18:17:41Z
Available date	dc.date.available	2012-09-12T18:17:41Z
Publication date	dc.date.issued	2009	es_CL
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/103488
Abstract	dc.description.abstract	El almacenamiento digital de la información debe abordar tanto el problema de la incorporación de datos al sistema como su recuperación, y debe hacer un catálogo acorde con las consultas que sobre ellos quiera hacerse. El espacio ocupado para el almacenamiento y el tiempo necesario para ingresar la información, y para recuperala, depende directamente de la estructura utilizada en el repositorio. De este modo, cuando nos referimos a información que ya cuenta cion un grado de estructuración, la indexación debe ser coherente con la estructuta formal de la misma, para favorecer así la consulta. En el presente estudio se aborda el problema de la compresión estática de información semi-estructurada combinada con una indezación tendiente a soportar uin conjunto de consultas sobre los datos, con un fuerte énfasis en el almacenamiento en memoria secundaria. El ámbito de desarrollo de la aplicación propuesta se enmarca dentro de la documentación XML y su lenguaje de consulta XQuery. El modelo utilizado en la implementación está basado en la propuestas desarrolladas por Baeza-Yates y Navarro en Proximal Nodes. La implementación corresponde a un desarrollo posterior de un procesador destinado a soportar consultas en el lenguaje XPath desarrollado por Manuel Ortega como memoria de Ingeniería. El desarrollo de la capa de almacenamiento del prototipo actual se enfoca en la resolución de problemas en tres áreas: recuperación del archivo fuente, consulta eficiente sobre la estructura del documento, y búsqueda de texto en lenguaje natural. Las estructuras diseñadas adhieren a técnicas recientes en el área de la compresión y de recuperación de la información en XML. El resultado de esta memoria es un autoíndice XML con gran desempeño en colecciones de tamaño pequeño y mediano, con capacidad de abordar colecciones de gran tamaño con resucesos limitados de memoria principal, y con un gran potencial de adaptación para colecciones en un nuevo contexto dinámico. El prototipo presenta un desempeño altamente competitivo con las alternativas existentes en el estado del arte.
Lenguage	dc.language.iso	es	es_CL
Publisher	dc.publisher	Universidad de Chile	es_CL
Publisher	dc.publisher	Programa Cybertesis	es_CL
Type of license	dc.rights	Sologuren Gutiérrez, Felipe Leopoldo	es_CL
Keywords	dc.subject	Computación	es_CL
Keywords	dc.subject	Indexación	es_CL
Keywords	dc.subject	Estructuras de datos (Ciencias de la computación)	es_CL
Keywords	dc.subject	XML (Lenguaje de marcación de documentos)	es_CL
Keywords	dc.subject	XQuery (Lenguaje de programación de computadores)	es_CL
Keywords	dc.subject	Estructuras compactadas	es_CL
Título	dc.title	Combinado Indexación y Compresión en Texto Semi-Estructurado	es_CL
Document type	dc.type	Tesis

Files in this item

Name:: sologuren_f.pdf
Size:: 1.015Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record