Prediction of the optimal growth ph of acidophiles by protein sequence analysis: a deep learning approach
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Tobar Henríquez, Felipe
Cómo citar
Prediction of the optimal growth ph of acidophiles by protein sequence analysis: a deep learning approach
Author
Professor Advisor
Abstract
Las proteínas son moléculas formadas por una cadena de moléculas más pequeñas llamadas
aminoácidos. Las propiedades de cada proteína como su función, familia y propiedades fisicoquímicas
están codificadas de manera compleja en su secuencia de aminoácidos. Algunas
proteínas son capaces de resistir condiciones extremas, como aquellas presentes en el envoltorio
de microorganismos llamados acidófilos que viven en condiciones extremadamente ácidas
(pH <3). En este trabajo, se desarrollan modelos de deep learning para decodificar la resistencia
a ácido de las proteínas. Más de 150000 proteínas de envoltorio de organismos que
viven a pH 1 a 7 se utilizaron para entrenar múltiples modelos de regresión, desde modelos
lineales simples hasta modelos de NLP. Los resultados muestran que existen cambios en los
patrones de la secuencia aminoacídica de los proteínas a diferentes pH, los cuales reflejan
capacidades de resistencia a condiciones extremadamente ácidas. Los mejores modelos de
machine learning clásico fueron modelos de tipo gradient boosting entrenados en atributos de
las proteínas y codificaciones de transformer. El mejor modelo deep learning fue una nueva
arquitectura que combina LSTM y extracción de atributos mediante CNN y atención. Se
diseñó una heurística para predecir el pH óptimo de crecimiento de organismos unicelulares
en base a la agregación de las predicciones individuales de cada una de sus proteínas, con un
error absoluto medio de 0.61 unidades de pH. Estos resultados representan un importante
paso en el desarrollo de herramientas bioinformáticas para la caracterización de proteínas y
genomas.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias de Datos
Patrocinador
Este trabajo ha sido parcialmente financiado por:
Proyecto Basal FB0008.
Collections
The following license files are associated with this item: