Arboles de Sufijo Comprimidos para Textos Altamente Repetitivos

Abeliuk Kimelman, Andrés

Professor Advisor	dc.contributor.advisor	Navarro Badino, Gonzalo	es_CL
Author	dc.contributor.author	Abeliuk Kimelman, Andrés	es_CL
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas	es_CL
Staff editor	dc.contributor.editor	Departamento de Ciencias de la Computación	es_CL
Associate professor	dc.contributor.other	Gutiérrez Gallardo, Claudio
Associate professor	dc.contributor.other	Paredes Moraleda, Rodrigo
Admission date	dc.date.accessioned	2012-09-12T18:18:31Z
Available date	dc.date.available	2012-09-12T18:18:31Z
Publication date	dc.date.issued	2012	es_CL
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/104369
General note	dc.description	Ingeniero Civil en Computación
Abstract	dc.description.abstract	El árbol de sufijos es una de las estructuras más importantes que se han creado para el manejo de cadenas de caracteres. Esta estructura permite encontrar eficientemente las ocurrencias de un patrón, en tiempo proporcional al largo del patrón. Adicionalmente soporta operaciones para resolver problemas complejos sobre una secuencia. Esta estructura tiene muchas aplicaciones en variadas áreas de la investigación , destacándose en la bioinformática, donde los recientes avances tecnológicos han permitido recolectar grandes colecciones de secuencias de ADN. La implementación clásica se vuelve impracticable para grandes volúmenes de información dado que ocupan demasiado espacio, que siempre muchas veces mayor que el texto mismo. Luego, no pueden ser almacenados en memoria principal, lo que en la práctica significa un aumento importante del tiempo de respuesta. Este problema es la principal motivación por la cual se buscan nuevas representaciones comprimidas de esta estructura, dando lugar a los árboles de sufijos comprimidos. Estos contienen la misma información que los árboles de sufijos pero ocupan un espacio considerablemente menor. Existen variadas propuestas teóricas para representar un árbol de sufijos comprimido, que ofrecen espacios y tiempos diferentes. En la práctica, dos estructuras destacan por sobre las demás. La primera fue propuesta por Sadakane e implementada por Välimäki et al. Esta estructura soporta la mayoría de las operaciones de navegación en tiempo constante, pero en la práctica requiere entre 25 y 35 bits por símbolo. La segunda fue propuesta por Fischer et al. e implementada por Cánovas, incorporando variantes y nuevas ideas para todas las estructuras que componen el árbol de sufijos comprimido propuesto por ellos. Una de estas variantes resulta ser superior a la implementación de Sadakane tanto en espacio como en tiempo, utilizando alrededor de 8 a 12 bits por símbolo. Dado que secuencias de ADN relacionadas son altamente similares, por ejemplo dos genomas humanos son muy parecidos, las colecciones pueden ser tratadas como un gran texto que contiene cadenas altamente similares. En este trabajo se propone e implementa una nueva variante del árbol de sufijos comprimido de Fischer et al, optimizada para textos altamente repetitivos. Se reemplazan y/o modifican cada una de las estructuras que componen el árbol por nuevas que presentan mayor compresión en textos repetitivos. El resultado más importante consiste en crear una nueva estructura inspirada en una técnica de compresión basada en gramáticas, aplicable al árbol de sufijos comprimido, que con poco espacio extra acelera considerablemente las operaciones sobre el árbol. Finalmente, la variante se compara experimentalmente sobre textos altamente repetitivos y resulta ser superior a la implementación de Cánovas, tanto en tiempo como en espacio, ocupando entre 3 a 6 bits por símbolo.
Patrocinador	dc.description.sponsorship	Este trabajo ha sido parcialmente financiado por el Instituto Milenio de Dinámica Celular y Biotecnología (ICDB) y el proyecto Fondecyt 1-080019
Lenguage	dc.language.iso	es	es_CL
Publisher	dc.publisher	Universidad de Chile	es_CL
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/
Keywords	dc.subject	Computación	es_CL
Keywords	dc.subject	Compresión de datos (Ciencia de la Computación)	es_CL
Keywords	dc.subject	Estructuras de datos (Ciencias de la Computación)	es_CL
Keywords	dc.subject	Suffix tree	es_CL
Keywords	dc.subject	Estructuras compactas	es_CL
Título	dc.title	Arboles de Sufijo Comprimidos para Textos Altamente Repetitivos	es_CL
Document type	dc.type	Tesis

Files in this item

Name:: Arboles-de-sufijos-comprimidos ...
Size:: 1.579Mb
Format:: PDF

Name:: TablaConten.pdf
Size:: 77.37Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile