Evaluación de grafos para la representación de proteínas como soporte para la aplicación de algoritmos de inteligencia artificial en la predicción de efectos de mutaciones y sitios epistáticos
Professor Advisor
dc.contributor.advisor
Olivera Nappa, Álvaro
Author
dc.contributor.author
Muñoz Soto, Jorge Luis
Associate professor
dc.contributor.other
Salgado Herrera, José
Associate professor
dc.contributor.other
Andrews Farrow, Barbara
Admission date
dc.date.accessioned
2023-06-30T20:19:52Z
Available date
dc.date.available
2023-06-30T20:19:52Z
Publication date
dc.date.issued
2023
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/194568
Abstract
dc.description.abstract
El estudio de proteínas por medio de enfoques computacionales es de gran interés para diversas industrias que las utilizan debido a la diversidad funcional que estas poseen. Recientemente se han desarrollado modelos que se centran en el uso de grafos para representar estas moléculas, utilizándolos para estudiarlas a nivel estructural. En este contexto se desarrolla la presente memoria que tiene como fin explorar, diseñar e implementar estrategias computacionales para la aplicación de estructuras de grafos como método de representación de proteínas con estructura tridimensional conocida.
El trabajo tiene un fin exploratorio y es dividido en cuatro tareas principales: construir un programa que permita obtener un grafo desde un modelo proteico en formato pdb, realizar detección de comunidades sobre estos, utilizar las comunidades detectadas como unidad de comparación entre proteínas nativas y sus variantes, y generar una metodología para utilizar estas estructuras como inputs en modelos de aprendizaje profundo. La implementación fue llevada a cabo utilizando Python 3.9.7 y diversas librerías como son Networkx 2.6.3, Igraph 0.9.11 y Pytorch geometric 2.0.2.
Los primeros resultados obtenidos fueron cuatro tipos de grafos para representar proteínas: Carbono alfa-distancia, Centroide-distancia, Átomo-distancia e Interacciones intermoleculares.En estudio de comunidades se destaca Spinglass como el algoritmo con mejor modularidad para los grafos de distancia y el que presenta menos resultados anómalos. Por su parte, en los grafos de interacción intermolecular no se puede utilizar este algoritmo debido a que corresponden
a estructuras no completas, así es Multilevel el que logra el mejor desempeño con este indicador. Con relación a la comparación de grafos, a partir del análisis de casos puntuales, se nota que los grafos de Centroide-distancia son los más sensibles a redistribución de elementos en comunidades, y que los grados de interacciones intermoleculares podrían ser útiles para identificar la redistribución de redes de puentes de hidrógeno. Respecto al aprendizaje profundo, se programa una red neuronal para clasificar enzimas según su función, entregando una exactitud de 16.3 %, una precisión de 2.7% y un recall de 16.7 %, dicho desempeño se atribuye a no ajustar los hiperparámetros. A pesar de lo anterior, se destaca la metodología propuesta sobre el comportamiento de la red.
Se concluye que el objetivo exploratorio de la memoria se cumple, obteniendo una representación flexible para la proteínas, que puede ser utilizada en distintas tareas y con el potencial de generar representaciones más completas al incluir más información a las aristas.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States
Evaluación de grafos para la representación de proteínas como soporte para la aplicación de algoritmos de inteligencia artificial en la predicción de efectos de mutaciones y sitios epistáticos
es_ES
Document type
dc.type
Tesis
es_ES
dc.description.version
dc.description.version
Versión original del autor
es_ES
dcterms.accessRights
dcterms.accessRights
Acceso abierto
es_ES
Cataloguer
uchile.catalogador
gmm
es_ES
Department
uchile.departamento
Departamento de Ingeniería Química, Biotecnología y Materiales
es_ES
Faculty
uchile.facultad
Facultad de Ciencias Físicas y Matemáticas
es_ES
uchile.titulacion
uchile.titulacion
Doble Titulación
es_ES
uchile.carrera
uchile.carrera
Ingeniería Civil Química
es_ES
uchile.gradoacademico
uchile.gradoacademico
Licenciado
es_ES
uchile.notadetesis
uchile.notadetesis
Memoria para optar al título de Ingeniero Civil Químico e Ingeniero Civil en Biotecnología