Aplicaciones de Machine Learning y Data Mining en ingeniería de proteínas: diseño e implementación de nuevas estrategias para el estudio de mutaciones
Tesis
Access note
Acceso abierto
Publication date
2022Metadata
Show full item record
Cómo citar
Olivera Nappa, Álvaro
Cómo citar
Aplicaciones de Machine Learning y Data Mining en ingeniería de proteínas: diseño e implementación de nuevas estrategias para el estudio de mutaciones
Author
Professor Advisor
Abstract
La incorporación de las técnicas de aprendizaje de máquinas y minería de datos a las estrategias de diseño de mutaciones ha permitido mejorar enormemente su rendimiento y sus facilidades de aplicación. No obstante, diversos desafíos aparecen al agregar estas metodologías computacionales en los protocolos de diseños experimentales, siendo los principales, la generalización de los sistemas de predicción, las estrategias de representación numérica de las secuencias de proteínas, la optimización del rendimiento de los modelos predictivos, y el uso de estos sistemas para tareas como reconstrucción de landscape y exploración de espacios latentes, entre otros.
Debido a las variadas problemáticas existentes, esta tesis de doctorado se ha centrado en el diseño e implementación de metodologías computacionales que permitan solventar los desafíos de la incorporación de las técnicas de aprendizaje de máquinas a los protocolos de diseño de proteínas actuales, proponiendo la elaboración de una plataforma de manejo de datos para ingeniería, la cual mejora el rendimiento de modelos predictivos para variadas tareas y permite el diseño de mutaciones con propiedades deseables, contribuyendo en diferentes aristas de desarrollo.
Primero, se diseñó e implementó una estrategia de representación numérica de secuencias de proteínas combinando codificadores basados en propiedades fisicoquímicas semánticamente seleccionados con transformaciones de Fourier, con el fin de mejorar el proceso de codificación para aplicaciones de algoritmos basados en técnicas de machine learning.
En una segunda etapa, se diseñó e implementó un framework de entrenamiento de modelos predictivos para tareas de ingeniería que proteínas. Este sistema emplea la estrategia de representación numérica propuesta en este trabajo de doctorado como input para entrenar modelos basados en algoritmos de aprendizaje supervisado, los cuales se optimizan su rendimiento mediante la selección eficiente de hiperparámetros mediante algoritmos genéticos. Finalmente, se combinan en un único sistema por medio de sistemas de aprendizaje ensamblado para desarrollar el sistema predictivo de interés.
Finalmente, se diseñaron e implementaron estrategias de diseño de proteínas mediante la elaboración de metodologías para explorar espacios latentes y reconstrucción de landscapes. Además, se construyó una estrategia de identificación de sitios relevantes en proteínas, combinando los puntos de vista filogenéticos, termodinámico y estructural, con el fin de favorecer las herramientas de diseño de mutaciones sitio dirigidas y el análisis de trayectorias en procesos evolutivos.
Todas las metodologías diseñadas e implementadas en este trabajo se validaron con diferentes conjuntos de datos habilitados en la literatura y se compararon con estrategias previamente reportadas, logrando, en la mayoría de los casos, obtener mejores rendimientos en cuanto a calidad de predicciones, así como también facilidades en interpretación de los resultados, gracias al tipo de algoritmos empleados, siendo directamente relacionado con los ideales de la Inteligencia Artificial Explicable, lo cual denota la relevancia de las metodologías planteadas para los campos de ingeniería de proteínas y biotecnología.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Doctor en Ciencias de la Ingeniería, Mención Ingeniería Química y Biotecnología
Identifier
URI: https://repositorio.uchile.cl/handle/2250/186676
Collections
The following license files are associated with this item: