Show simple item record

Professor Advisordc.contributor.advisorOlivera Nappa, Álvaro
Authordc.contributor.authorVergara Valenzuela, Kevin Javier 
Associate professordc.contributor.otherSalgado Herrera, Cristián
Associate professordc.contributor.otherAndrews Farrow, Barbara
Admission datedc.date.accessioned2021-06-19T00:55:15Z
Available datedc.date.available2021-06-19T00:55:15Z
Publication datedc.date.issued2021
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/180185
General notedc.descriptionMemoria para optar al título de Ingeniero Civil en Biotecnologíaes_ES
General notedc.descriptionMemoria para optar al título de Ingeniero Civil Químico
Abstractdc.description.abstractLa ingeniería de proteínas emplea dos procedimientos principales para el mejoramiento de enzimas: diseño racional y evolución dirigida. A raíz de las limitaciones técnicas y económicas de estos métodos, se recurre al aprendizaje de máquinas. Se ha reportado en la literatura diversas formas de codificar las secuencias de péptidos/proteínas para este propósito, pero ha sido poco el uso de la digitalización de las propiedades fisicoquímicas como descriptor principal, la cual tiene el potencial de entregar un perfil íntegro e informativo de una molécula. Es por esto que la presente Memoria tiene como objetivo plantear una metodología de diseño y validación de modelos predictivos basados en dicha digitalización. Para ello, se trabaja con 18 conjuntos de datos recolectados de distintas referencias. Se centra el estudio en 5 conjuntos con el propósito de abordar problemas de clasificación binaria, regresión, y clasificación multicategórica. La metodología propuesta consiste en cinco etapas secuenciales fundamentales: caracterización del conjuntos de datos, análisis de los espectros de Fourier de las secuencias del conjunto, identificación de la propiedad fisicoquímica más informativa, construcción de un modelo de aprendizaje supervisado optimizado para incorporar la digitalización, y validación de éste mediante el análisis de sus medidores de desempeño. La caracterización de los conjuntos de datos y de los espectros entregó apreciaciones preliminares que permiten estimar el desempeño de los modelos predictivos. Del conjunto de los espectros se observó que existe posibilidad de identificar patrones de dispersión y de peaks entre conjuntos de datos suficientemente distintivos, pero falla al intentar diferenciar grupos con características similares. Sin embargo, se contrastó este proceso con la realización del alineamiento de las secuencias, logrando apreciar que existe más potencial de extraer información de calidad de los espectros de Fourier que de alineamiento de péptidos/proteínas con poca homología. Para la construcción y validación de modelos predictivos, se tomó en consideración las formas de codificación por onehot, ordinal, composición aminoacídica y composición por dipéptidos. Se probaron con cinco distintos algoritmos para mantener la generalidad de aplicabilidad de la digitalización: K-Nearest Neighbors, Random Forest, Support Vector Machine, Artificial Neural Network, y Convolutional Neural Network. Se reporta robustez de la codificación por digitalización frente a las cuatro comunes, exhibiendo rendimientos similares o superiores para cada conjunto de dato de los casos de estudio. Asimismo, se contrastó con los rendimientos de referencia, logrando apreciar desempeños similares o superiores para los problemas de clasificación binaria, pero falla al abordar problemas de regresión. Para estudios futuros, se propone implementar múltiples propiedades fisicoquímicas en un mismo modelo, junto con incorporar otras formas de codificación para generar un modelo híbrido y potencialmente lograr mejores resultados.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectIngeniería de proteínases_ES
Keywordsdc.subjectAprendizaje de máquinaes_ES
Keywordsdc.subjectModelos predictivoses_ES
Keywordsdc.subjectDigitalización de propiedades fisicoquímicases_ES
Títulodc.titleDiseño e implementación de modelos predictivos de clasificación y regresión de proteínas basadas en la digitalización de propiedades fisicoquímicases_ES
Document typedc.typeTesis
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ingeniería Química, Biotecnología y Materialeses_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile