Show simple item record

Professor Advisordc.contributor.advisorTobar Henríquez, Felipe
Authordc.contributor.authorCortez Milán, Diego Nahuel
Associate professordc.contributor.otherMaass Sepúlveda, Alejandro
Associate professordc.contributor.otherSipirán Mendoza, Iván
Admission datedc.date.accessioned2024-11-29T18:09:11Z
Available datedc.date.available2024-11-29T18:09:11Z
Publication datedc.date.issued2024
Identifierdc.identifier.other10.58011/28ys-a747
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/202090
Abstractdc.description.abstractLas proteínas son moléculas formadas por una cadena de moléculas más pequeñas llamadas aminoácidos. Las propiedades de cada proteína como su función, familia y propiedades fisicoquímicas están codificadas de manera compleja en su secuencia de aminoácidos. Algunas proteínas son capaces de resistir condiciones extremas, como aquellas presentes en el envoltorio de microorganismos llamados acidófilos que viven en condiciones extremadamente ácidas (pH <3). En este trabajo, se desarrollan modelos de deep learning para decodificar la resistencia a ácido de las proteínas. Más de 150000 proteínas de envoltorio de organismos que viven a pH 1 a 7 se utilizaron para entrenar múltiples modelos de regresión, desde modelos lineales simples hasta modelos de NLP. Los resultados muestran que existen cambios en los patrones de la secuencia aminoacídica de los proteínas a diferentes pH, los cuales reflejan capacidades de resistencia a condiciones extremadamente ácidas. Los mejores modelos de machine learning clásico fueron modelos de tipo gradient boosting entrenados en atributos de las proteínas y codificaciones de transformer. El mejor modelo deep learning fue una nueva arquitectura que combina LSTM y extracción de atributos mediante CNN y atención. Se diseñó una heurística para predecir el pH óptimo de crecimiento de organismos unicelulares en base a la agregación de las predicciones individuales de cada una de sus proteínas, con un error absoluto medio de 0.61 unidades de pH. Estos resultados representan un importante paso en el desarrollo de herramientas bioinformáticas para la caracterización de proteínas y genomas.es_ES
Patrocinadordc.description.sponsorshipEste trabajo ha sido parcialmente financiado por: Proyecto Basal FB0008.es_ES
Lenguagedc.language.isoenes_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titlePrediction of the optimal growth ph of acidophiles by protein sequence analysis: a deep learning approaches_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoEscuela de Postgrado y Educación Continuaes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Ciencias de Datoses_ES


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States