Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas

Ugarte Humeres, Jorge Enrique

Tesis

Open/Download

cf-ugarte_jh.pdf (4.790Mb)

Publication date

2012

Metadata

Show full item record

Cómo citar

Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases AcuosasFormato de cita

Copiar

Cerrar

Author

Ugarte Humeres, Jorge Enrique;

Professor Advisor

Abstract

El principal coste en la industria biotecnológica se produce en I+D, alcanzando un 53% de los ingresos en USA y 63% en Europa (1997-1999). Esto se explica por la complejidad de las técnicas utilizadas, como en algunos procesos de separación y purificación de proteínas. Para disminuir los costes en I+D, se puede reducir el tiempo de diseño de éstas utilizando modelos. Dos técnicas utilizadas extensamente para la separación de proteínas son la cromatografía de interacción hidrofóbica (HIC) y los sistemas de dos fases acuosas (ATPS), para las cuales existen diversos modelos predictivos que se basan en una o más propiedades del sistema y/o la molécula a separar. Las principales limitantes de estos modelos son la capacidad predictiva, y la cantidad y coste de la información requerida. En los modelos que utilizan hidrofobicidad, una limitante adicional es la escala de hidrofobicidad utilizada. Por esto, el presente trabajo tiene como objetivo generar nuevas escalas de hidrofobicidad que mejoren el poder predictivo de modelos reportados para el tiempo de retención adimensional (DRT) de proteínas en HIC, y el coeficiente de partición (K) de proteínas en cuatro tipos de sistemas ATPS. Se analizó un grupo reportado de 74 escalas de propiedades aminoacídicas (APVs), mediante los siguientes algoritmos de clustering: Growing Neuronal Gas (GNG), Growing Grid (GG), Hierarchical Clustering, Bisection Algorithm, Restricted Neigbouhood Search Algorithm, y Markov Clustering Algorithm. Se utilizó también el algoritmo de optimización Genetic Algorithm (GA). Para la predicción de DRT y K, en cada caso se utilizó un modelo que requiere la estructura tridimensional de las proteínas y tres modelos que solo requieren la composición aminoacídica, los que calculan o predicen la hidrofobicidad superficial media (ASH). El poder predictivo de los modelos se calculó mediante validación cruzada de Jacknife. A través de la metodología empleada se obtuvo 308.000 nuevas escalas, de las cuales un 93% se generó con GNG, GG y GA, incluyendo las escalas más exitosas. En general, la utilización de las nuevas escalas permitió desarrollar modelos con un mejor poder predictivo que los basados en escalas reportadas en literatura. Estas mejoras se reflejaron en un aumento del poder predictivo entre un 11% y un 99,6% en un 81% de los casos con respecto al caso base. De forma simultánea, dentro de los modelos con aumento del poder predictivo se obtuvo mejoras en el nivel de ajuste, medido a través del Coeficiente de Pearson, de un 4% a un 300% en 28 de 42 casos (67%). A partir del estudio de las mejores escalas obtenidas y los APVs, se concluyó que existe transferencia de propiedades desde estos últimos a las escalas generadas con GNG y GG. Por otro lado, se descartó transferencia de propiedades a las escalas generadas con GA, sin embargo, se validó su uso. Se determinó que las mejores escalas contienen información de APVs asociados a estudios de: hidrofobicidad en sistemas físicoquímicos (HIC y ATPS), hidrofobicidad de aminoácidos en proteínas, y propensión conformacional de aminoácidos en proteínas. Los resultados obtenidos sugieren que incluir APVs del tipo conformacional permite mejorar las escalas obtenidas, disminuyendo el sesgo introducido por el uso de la ASH. Lo anterior sugiere que una escala que refleje la probabilidad de ocurrencia de cada aminoácido en distintos tipos de estructurasconfiguraciones existentes en la superficie de las proteínas, y que incorpore el potencial hidrofóbico de cada de éstas, podría ser útil para mejorar el poder predictivo de los modelos. En conclusión, a través del uso de algoritmos de clustering y optimización se logró un aumento significativo del poder predictivo de los modelos para HIC y ATPS, el que incluso es mayor al que se obtiene con otros modelos que incorporan directamente más información experimental, lo que permite reducir costes en I+D. La contribución realizada postula nuevas interrogantes y sugiere caminos que amplían y perfeccionan la búsqueda de metodologías para generar mejores modelos predictivos del comportamiento de proteínas en sistemas de separación, que requieren sólo la composición aminoacídica de las proteínas.

Identifier

URI: https://repositorio.uchile.cl/handle/2250/102770

Collections

Tesis Postgrado

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile