Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas
Tesis
Open/ Download
Publication date
2012Metadata
Show full item record
Cómo citar
Salgado Herrera, José Cristián
Cómo citar
Uso de Algoritmos de Clustering para Predecir el Comportamiento de Proteínas en Cromatografía de Interacción Hidrofobica y Sistema de Dos Fases Acuosas
Author
Professor Advisor
Abstract
El principal coste en la industria biotecnológica se produce en I+D, alcanzando un 53% de los
ingresos en USA y 63% en Europa (1997-1999). Esto se explica por la complejidad de las
técnicas utilizadas, como en algunos procesos de separación y purificación de proteínas. Para
disminuir los costes en I+D, se puede reducir el tiempo de diseño de éstas utilizando modelos.
Dos técnicas utilizadas extensamente para la separación de proteínas son la cromatografía de
interacción hidrofóbica (HIC) y los sistemas de dos fases acuosas (ATPS), para las cuales
existen diversos modelos predictivos que se basan en una o más propiedades del sistema y/o la
molécula a separar. Las principales limitantes de estos modelos son la capacidad predictiva, y
la cantidad y coste de la información requerida. En los modelos que utilizan hidrofobicidad, una
limitante adicional es la escala de hidrofobicidad utilizada. Por esto, el presente trabajo tiene
como objetivo generar nuevas escalas de hidrofobicidad que mejoren el poder predictivo de
modelos reportados para el tiempo de retención adimensional (DRT) de proteínas en HIC, y el
coeficiente de partición (K) de proteínas en cuatro tipos de sistemas ATPS.
Se analizó un grupo reportado de 74 escalas de propiedades aminoacídicas (APVs), mediante
los siguientes algoritmos de clustering: Growing Neuronal Gas (GNG), Growing Grid (GG),
Hierarchical Clustering, Bisection Algorithm, Restricted Neigbouhood Search Algorithm, y
Markov Clustering Algorithm. Se utilizó también el algoritmo de optimización Genetic Algorithm
(GA). Para la predicción de DRT y K, en cada caso se utilizó un modelo que requiere la
estructura tridimensional de las proteínas y tres modelos que solo requieren la composición
aminoacídica, los que calculan o predicen la hidrofobicidad superficial media (ASH). El poder
predictivo de los modelos se calculó mediante validación cruzada de Jacknife.
A través de la metodología empleada se obtuvo 308.000 nuevas escalas, de las cuales un 93%
se generó con GNG, GG y GA, incluyendo las escalas más exitosas. En general, la utilización
de las nuevas escalas permitió desarrollar modelos con un mejor poder predictivo que los
basados en escalas reportadas en literatura. Estas mejoras se reflejaron en un aumento del
poder predictivo entre un 11% y un 99,6% en un 81% de los casos con respecto al
caso base. De forma simultánea, dentro de los modelos con aumento del poder predictivo se
obtuvo mejoras en el nivel de ajuste, medido a través del Coeficiente de Pearson, de un 4% a
un 300% en 28 de 42 casos (67%).
A partir del estudio de las mejores escalas obtenidas y los APVs, se concluyó que existe
transferencia de propiedades desde estos últimos a las escalas generadas con GNG y GG. Por
otro lado, se descartó transferencia de propiedades a las escalas generadas con GA, sin
embargo, se validó su uso.
Se determinó que las mejores escalas contienen información de APVs asociados a estudios de:
hidrofobicidad en sistemas físicoquímicos (HIC y ATPS), hidrofobicidad de aminoácidos en
proteínas, y propensión conformacional de aminoácidos en proteínas. Los resultados obtenidos
sugieren que incluir APVs del tipo conformacional permite mejorar las escalas obtenidas,
disminuyendo el sesgo introducido por el uso de la ASH. Lo anterior sugiere que una escala que
refleje la probabilidad de ocurrencia de cada aminoácido en distintos tipos de estructurasconfiguraciones
existentes en la superficie de las proteínas, y que incorpore el potencial
hidrofóbico de cada de éstas, podría ser útil para mejorar el poder predictivo de los modelos.
En conclusión, a través del uso de algoritmos de clustering y optimización se logró un aumento
significativo del poder predictivo de los modelos para HIC y ATPS, el que incluso es mayor al
que se obtiene con otros modelos que incorporan directamente más información experimental,
lo que permite reducir costes en I+D. La contribución realizada postula nuevas interrogantes y
sugiere caminos que amplían y perfeccionan la búsqueda de metodologías para generar
mejores modelos predictivos del comportamiento de proteínas en sistemas de separación, que
requieren sólo la composición aminoacídica de las proteínas.
Identifier
URI: https://repositorio.uchile.cl/handle/2250/102770
Collections