Prediction of the optimal growth ph of acidophiles by protein sequence analysis: a deep learning approach
Professor Advisor
dc.contributor.advisor
Tobar Henríquez, Felipe
Author
dc.contributor.author
Cortez Milán, Diego Nahuel
Associate professor
dc.contributor.other
Maass Sepúlveda, Alejandro
Associate professor
dc.contributor.other
Sipirán Mendoza, Iván
Admission date
dc.date.accessioned
2024-11-29T18:09:11Z
Available date
dc.date.available
2024-11-29T18:09:11Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.other
10.58011/28ys-a747
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/202090
Abstract
dc.description.abstract
Las proteínas son moléculas formadas por una cadena de moléculas más pequeñas llamadas
aminoácidos. Las propiedades de cada proteína como su función, familia y propiedades fisicoquímicas
están codificadas de manera compleja en su secuencia de aminoácidos. Algunas
proteínas son capaces de resistir condiciones extremas, como aquellas presentes en el envoltorio
de microorganismos llamados acidófilos que viven en condiciones extremadamente ácidas
(pH <3). En este trabajo, se desarrollan modelos de deep learning para decodificar la resistencia
a ácido de las proteínas. Más de 150000 proteínas de envoltorio de organismos que
viven a pH 1 a 7 se utilizaron para entrenar múltiples modelos de regresión, desde modelos
lineales simples hasta modelos de NLP. Los resultados muestran que existen cambios en los
patrones de la secuencia aminoacídica de los proteínas a diferentes pH, los cuales reflejan
capacidades de resistencia a condiciones extremadamente ácidas. Los mejores modelos de
machine learning clásico fueron modelos de tipo gradient boosting entrenados en atributos de
las proteínas y codificaciones de transformer. El mejor modelo deep learning fue una nueva
arquitectura que combina LSTM y extracción de atributos mediante CNN y atención. Se
diseñó una heurística para predecir el pH óptimo de crecimiento de organismos unicelulares
en base a la agregación de las predicciones individuales de cada una de sus proteínas, con un
error absoluto medio de 0.61 unidades de pH. Estos resultados representan un importante
paso en el desarrollo de herramientas bioinformáticas para la caracterización de proteínas y
genomas.
es_ES
Patrocinador
dc.description.sponsorship
Este trabajo ha sido parcialmente financiado por:
Proyecto Basal FB0008.
es_ES
Lenguage
dc.language.iso
en
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States