Prediction of the optimal growth ph of acidophiles by protein sequence analysis: a deep learning approach

Cortez Milán, Diego Nahuel

Professor Advisor	dc.contributor.advisor	Tobar Henríquez, Felipe
Author	dc.contributor.author	Cortez Milán, Diego Nahuel
Associate professor	dc.contributor.other	Maass Sepúlveda, Alejandro
Associate professor	dc.contributor.other	Sipirán Mendoza, Iván
Admission date	dc.date.accessioned	2024-11-29T18:09:11Z
Available date	dc.date.available	2024-11-29T18:09:11Z
Publication date	dc.date.issued	2024
Identifier	dc.identifier.other	10.58011/28ys-a747
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/202090
Abstract	dc.description.abstract	Las proteínas son moléculas formadas por una cadena de moléculas más pequeñas llamadas aminoácidos. Las propiedades de cada proteína como su función, familia y propiedades fisicoquímicas están codificadas de manera compleja en su secuencia de aminoácidos. Algunas proteínas son capaces de resistir condiciones extremas, como aquellas presentes en el envoltorio de microorganismos llamados acidófilos que viven en condiciones extremadamente ácidas (pH <3). En este trabajo, se desarrollan modelos de deep learning para decodificar la resistencia a ácido de las proteínas. Más de 150000 proteínas de envoltorio de organismos que viven a pH 1 a 7 se utilizaron para entrenar múltiples modelos de regresión, desde modelos lineales simples hasta modelos de NLP. Los resultados muestran que existen cambios en los patrones de la secuencia aminoacídica de los proteínas a diferentes pH, los cuales reflejan capacidades de resistencia a condiciones extremadamente ácidas. Los mejores modelos de machine learning clásico fueron modelos de tipo gradient boosting entrenados en atributos de las proteínas y codificaciones de transformer. El mejor modelo deep learning fue una nueva arquitectura que combina LSTM y extracción de atributos mediante CNN y atención. Se diseñó una heurística para predecir el pH óptimo de crecimiento de organismos unicelulares en base a la agregación de las predicciones individuales de cada una de sus proteínas, con un error absoluto medio de 0.61 unidades de pH. Estos resultados representan un importante paso en el desarrollo de herramientas bioinformáticas para la caracterización de proteínas y genomas.	es_ES
Patrocinador	dc.description.sponsorship	Este trabajo ha sido parcialmente financiado por: Proyecto Basal FB0008.	es_ES
Lenguage	dc.language.iso	en	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	Prediction of the optimal growth ph of acidophiles by protein sequence analysis: a deep learning approach	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	chb	es_ES
Department	uchile.departamento	Escuela de Postgrado y Educación Continua	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Ciencias de Datos	es_ES

Files in this item

Name:: Prediction-of-the-optimal-grow ...
Size:: 18.85Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States