Detector de CRISPR en genoma de bacterias
Author
Professor Advisor
Abstract
Las repeticiones palindrómicas cortas agrupadas y regularmente interespaciadas (CRISPR)
son secuencias de ADN encontradas en el código genético de microbios. Estas secuencias for-
man parte del sistema inmunológico de las bacterias, guardando fragmentos de ADN de virus
invasores que permiten al organismo defenderse ante futuros ataques. Una zona CRISPR se
compone de una serie de repeticiones de un patrón, separadas por secuencias llamadas spa-
cers.
La detección de CRISPR en genomas de bacterias extraídas directamente del ambiente, i.e.
metagenomas, permite conocer las interacciones entre microbios y el lugar en el que habitan.
En particular en el Desierto de Atacama estudiar estas interacciones es de interés dado a las
características extremas que presenta este habitat.
En este Trabajo de Título se busca determinar si es posible mejorar el rendimiento de
herramientas detectoras de CRISPR de novo mediante el uso de estructuras de datos com-
pactas. Para ello se propone diseñar e implementar una nueva estrategia de detección de
CRISPR y compararla con algunas existentes. Además se desea utilizar estas herramientas
para encontrar CRISPR en genomas obtenidos del Desierto de Atacama.
En específico, la solución implementada se compone de una selección de candidatos a
CRISPR utilizando un árbol de sufijos compacto para detectar patrones repetidos en en
genoma y una verificación y posterior concatenación de estos usando un árbol wavelet.
Se validó el algoritmo propuesto realizando pruebas de calidad, contabilizando la cantidad
de CRISPR conocidos que fue capaz de encontrar en genomas ya estudiados. Se obtuvo una
precisión parcial promedio de 65 % y un recall parcial promedio de 95 %. Se comparó el rendi-
miento de la solución con herramientas existentes en cuanto a uso de recursos. La estrategia
implementada utiliza menos memoria durante su ejecución, pero presenta un incremento muy
grande con respecto al tiempo de ejecución en comparación con los otros instrumentos.
Utilizando el algoritmo implementado y herramientas existentes se logró encontrar secuen-
cias CRISPR en dos genomas ensamblados a partir de un metagenoma obtenido del Desierto
de Atacama. La solución entregó resultados completos en relación a los otros instrumentos,
pero también reportó secuencias que estos no consideraron como CRISPR.
Este trabajo de título da un primer acercamiento a la factibilidad de diseñar una he-
rramienta detectora de CRISPR de novo que haga uso de estructuras de datos compactas.
Se logró implementar una herramienta que garantiza la detección y reporte de repeticiones
interespaciadas correspondientes a CRISPR. El trabajo realizado indica que es posible usar
estas estructuras para detectar CRISPR en genomas y se proponen ideas para mejorar el
rendimiento de la solución propuesta.
General note
Memoria para optar al título de Ingeniera Civil en Computación
Patrocinador
Proyecto Fondecyt 1-170048
Identifier
URI: https://repositorio.uchile.cl/handle/2250/176846
Collections
The following license files are associated with this item: