Evaluación de grafos para la representación de proteínas como soporte para la aplicación de algoritmos de inteligencia artificial en la predicción de efectos de mutaciones y sitios epistáticos
Tesis
Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Olivera Nappa, Álvaro
Cómo citar
Evaluación de grafos para la representación de proteínas como soporte para la aplicación de algoritmos de inteligencia artificial en la predicción de efectos de mutaciones y sitios epistáticos
Author
Professor Advisor
Abstract
El estudio de proteínas por medio de enfoques computacionales es de gran interés para diversas industrias que las utilizan debido a la diversidad funcional que estas poseen. Recientemente se han desarrollado modelos que se centran en el uso de grafos para representar estas moléculas, utilizándolos para estudiarlas a nivel estructural. En este contexto se desarrolla la presente memoria que tiene como fin explorar, diseñar e implementar estrategias computacionales para la aplicación de estructuras de grafos como método de representación de proteínas con estructura tridimensional conocida.
El trabajo tiene un fin exploratorio y es dividido en cuatro tareas principales: construir un programa que permita obtener un grafo desde un modelo proteico en formato pdb, realizar detección de comunidades sobre estos, utilizar las comunidades detectadas como unidad de comparación entre proteínas nativas y sus variantes, y generar una metodología para utilizar estas estructuras como inputs en modelos de aprendizaje profundo. La implementación fue llevada a cabo utilizando Python 3.9.7 y diversas librerías como son Networkx 2.6.3, Igraph 0.9.11 y Pytorch geometric 2.0.2.
Los primeros resultados obtenidos fueron cuatro tipos de grafos para representar proteínas: Carbono alfa-distancia, Centroide-distancia, Átomo-distancia e Interacciones intermoleculares.En estudio de comunidades se destaca Spinglass como el algoritmo con mejor modularidad para los grafos de distancia y el que presenta menos resultados anómalos. Por su parte, en los grafos de interacción intermolecular no se puede utilizar este algoritmo debido a que corresponden
a estructuras no completas, así es Multilevel el que logra el mejor desempeño con este indicador. Con relación a la comparación de grafos, a partir del análisis de casos puntuales, se nota que los grafos de Centroide-distancia son los más sensibles a redistribución de elementos en comunidades, y que los grados de interacciones intermoleculares podrían ser útiles para identificar la redistribución de redes de puentes de hidrógeno. Respecto al aprendizaje profundo, se programa una red neuronal para clasificar enzimas según su función, entregando una exactitud de 16.3 %, una precisión de 2.7% y un recall de 16.7 %, dicho desempeño se atribuye a no ajustar los hiperparámetros. A pesar de lo anterior, se destaca la metodología propuesta sobre el comportamiento de la red.
Se concluye que el objetivo exploratorio de la memoria se cumple, obteniendo una representación flexible para la proteínas, que puede ser utilizada en distintas tareas y con el potencial de generar representaciones más completas al incluir más información a las aristas.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil Químico e Ingeniero Civil en Biotecnología
Identifier
URI: https://repositorio.uchile.cl/handle/2250/194568
Collections
The following license files are associated with this item: