Professor Advisor | dc.contributor.advisor | Olivera Nappa, Álvaro | |
Author | dc.contributor.author | Vergara Valenzuela, Kevin Javier | |
Associate professor | dc.contributor.other | Salgado Herrera, Cristián | |
Associate professor | dc.contributor.other | Andrews Farrow, Barbara | |
Admission date | dc.date.accessioned | 2021-06-19T00:55:15Z | |
Available date | dc.date.available | 2021-06-19T00:55:15Z | |
Publication date | dc.date.issued | 2021 | |
Identifier | dc.identifier.uri | https://repositorio.uchile.cl/handle/2250/180185 | |
General note | dc.description | Memoria para optar al título de Ingeniero Civil en Biotecnología | es_ES |
General note | dc.description | Memoria para optar al título de Ingeniero Civil Químico | |
Abstract | dc.description.abstract | La ingeniería de proteínas emplea dos procedimientos principales para el mejoramiento de enzimas: diseño racional y evolución dirigida. A raíz de las limitaciones técnicas y económicas de estos métodos, se recurre al aprendizaje de máquinas. Se ha reportado en la literatura diversas formas de codificar las secuencias de péptidos/proteínas para este propósito, pero ha sido poco el uso de la digitalización de las propiedades fisicoquímicas como descriptor principal, la cual tiene el potencial de entregar un perfil íntegro e informativo de una molécula.
Es por esto que la presente Memoria tiene como objetivo plantear una metodología de diseño y validación de modelos predictivos basados en dicha digitalización. Para ello, se trabaja con 18 conjuntos de datos recolectados de distintas referencias. Se centra el estudio en 5 conjuntos con el propósito de abordar problemas de clasificación binaria, regresión, y clasificación multicategórica. La metodología propuesta consiste en cinco etapas secuenciales fundamentales: caracterización del conjuntos de datos, análisis de los espectros de Fourier de las secuencias del conjunto, identificación de la propiedad fisicoquímica más informativa, construcción de un modelo de aprendizaje supervisado optimizado para incorporar la digitalización, y validación de éste mediante el análisis de sus medidores de desempeño.
La caracterización de los conjuntos de datos y de los espectros entregó apreciaciones preliminares que permiten estimar el desempeño de los modelos predictivos. Del conjunto de los espectros se observó que existe posibilidad de identificar patrones de dispersión y de peaks entre conjuntos de datos suficientemente distintivos, pero falla al intentar diferenciar grupos con características similares. Sin embargo, se contrastó este proceso con la realización del alineamiento de las secuencias, logrando apreciar que existe más potencial de extraer información de calidad de los espectros de Fourier que de alineamiento de péptidos/proteínas con poca homología.
Para la construcción y validación de modelos predictivos, se tomó en consideración las formas de codificación por onehot, ordinal, composición aminoacídica y composición por dipéptidos. Se probaron con cinco distintos algoritmos para mantener la generalidad de aplicabilidad de la digitalización: K-Nearest Neighbors, Random Forest, Support Vector Machine, Artificial Neural Network, y Convolutional Neural Network. Se reporta robustez de la codificación por digitalización frente a las cuatro comunes, exhibiendo rendimientos similares o superiores para cada conjunto de dato de los casos de estudio. Asimismo, se contrastó con los rendimientos de referencia, logrando apreciar desempeños similares o superiores para los problemas de clasificación binaria, pero falla al abordar problemas de regresión. Para estudios futuros, se propone implementar múltiples propiedades fisicoquímicas en un mismo modelo, junto con incorporar otras formas de codificación para generar un modelo híbrido y potencialmente lograr mejores resultados. | es_ES |
Lenguage | dc.language.iso | es | es_ES |
Publisher | dc.publisher | Universidad de Chile | es_ES |
Type of license | dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Chile | * |
Link to License | dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ | * |
Keywords | dc.subject | Ingeniería de proteínas | es_ES |
Keywords | dc.subject | Aprendizaje de máquina | es_ES |
Keywords | dc.subject | Modelos predictivos | es_ES |
Keywords | dc.subject | Digitalización de propiedades fisicoquímicas | es_ES |
Título | dc.title | Diseño e implementación de modelos predictivos de clasificación y regresión de proteínas basadas en la digitalización de propiedades fisicoquímicas | es_ES |
Document type | dc.type | Tesis | |
Cataloguer | uchile.catalogador | gmm | es_ES |
Department | uchile.departamento | Departamento de Ingeniería Química, Biotecnología y Materiales | es_ES |
Faculty | uchile.facultad | Facultad de Ciencias Físicas y Matemáticas | es_ES |
uchile.titulacion | uchile.titulacion | Doble Titulación | es_ES |