Árboles de decisión e identificación de genes en bacterias
Professor Advisor
dc.contributor.advisor
Martínez Aguilera, Servet
Author
dc.contributor.author
Guzmán Toro, Alonso Tomás
Associate professor
dc.contributor.other
Maass Sepúlveda, Alejandro
Associate professor
dc.contributor.other
Tobar Henríquez, Felipe
Admission date
dc.date.accessioned
2019-03-11T18:13:45Z
Available date
dc.date.available
2019-03-11T18:13:45Z
Publication date
dc.date.issued
2018
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/165720
General note
dc.description
Memoria para optar al título de Ingeniero Civil Matemático
es_ES
Abstract
dc.description.abstract
El presente trabajo muestra la implementación de técnicas de clasificación basadas en árboles de decisión para resolver y entender el problema de identificación de genes anotados en el ADN de la bacteria Escherichia Coli. Junto a lo anterior, se pretenden entender algunos principios biológicos subyacentes tras el mecanismo celular de identificación genética.
Los métodos de clasificación que se implementan en este trabajo intentan simular la manera en que los complejos procesos celulares de transcripción y traducción genética identifican o encuentran las posiciones de inicio de los genes responsables de la posterior síntesis proteica. Se respeta la forma en que esta información es adquirida sin caer en el error de alejarse del marco biológico en cuestión. Para resolver el problema se crearon tres estrategias de clasificación basadas en la combinación de modelos de árboles de decisión y de un algoritmo de optimización sobre el área ocupada en el ADN por zonas génicas.
La primera estrategia consiste en utilizar el algoritmo de optimización sobre candidatos a genes, obtenidos de una lectura secuencial en la doble hebra, para reducir la cantidad de potenciales genes. La solución obtenida es clasificada por los árboles de decisión. La segunda estrategia consiste en realizar el mismo proceso pero usando candidatos obtenidos desde una lectura en ambos sentidos de la doble hebra de ADN. La tercera estrategia consiste en iterar sucesivamente la optimización junto a los árboles utilizando la información incorrectamente clasificada por estos.
Los resultados obtenidos se resumen como un conjunto de candidatos clasificados positivamente por los árboles de decisión y que cumplen con las restricciones impuestas por el algoritmo de optimización.