Show simple item record

Professor Advisordc.contributor.advisorNilo Poyanco, Ricardo
Authordc.contributor.authorGómez Padilla, David Ignacio 
Associate professordc.contributor.otherTobar Henríquez, Felipe
Associate professordc.contributor.otherCaba Rutte, Andrés
Admission datedc.date.accessioned2018-06-05T19:18:35Z
Available datedc.date.available2018-06-05T19:18:35Z
Publication datedc.date.issued2017
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/148595
General notedc.descriptionIngeniero Civil Eléctricoes_ES
Abstractdc.description.abstractLos avances tecnológicos han permitido secuenciar el ADN de un organismo de manera mucho más accesible que en el pasado. Esto ha generado grandes volúmenes de información; en particular, de los principales productos génicos, las proteínas. Sin embargo, solo se ha logrado asignar funcionalidad a una centésima parte de las proteínas disponibles, ya que ello se realiza de forma experimental, lo cual es muy laborioso y lento. Es por ello que se han desarrollado un gran número de métodos computacionales que buscan predecir la funcionalidad de las proteínas. Dentro de ellos, BLAST (Basic Local Alignment Search Tool) ha sido el más usado, el cual asigna funcionalidad basándose en la noción de homología: proteínas con secuencias aminoacídicas similares tendrían funciones similares. Sin embargo se ha visto que proteínas con secuencias muy distintas pueden tener la misma funcionalidad, y variaciones en la secuencia de una proteína pueden tener grandes impactos en su función. Debido a las limitaciones de la inferencia de funcionalidad basado en homología, numerosos acercamientos basados en aprendizaje de máquinas han sido propuestos como alternativas. CAFA (Critical Assesment of Functional Annotation) es una competencia que busca evaluar las distintas alternativas que han surgido. Este desafío ha arrojado que no existe un método que sobrepase claramente a los demás, además de probar que si bien las alternativas propuestas sobrepasan el rendimiento de BLAST, este último aún sigue teniendo efectividad. En el presente trabajo se propone BLAST-KNN: un algoritmo que ensambla técnicas de aprendizaje de máquinas junto a BLAST para mejorar el proceso de clasificación funcional en enzimas, un subconjunto de las proteínas, utilizando la nomenclatura de los números EC (Enzyme Commission) como etiquetas. De esta manera se aprovecha la efectividad de BLAST y se intentan corregir aquellas clases en que este no tiene un rendimiento perfecto. Se incorpora el uso del programa InterProScan como extractor de características para representar las proteínas, lo que entrega la ventaja de tener información basada no solo en homología. Se seleccionan las características más relevantes usando técnicas de teoría de la información. Usando los datos disponible en SwissProt que cuentan con sus cuatro dígitos EC asignados, se logran mejorar 835 clases en términos del puntaje F1 obtenido solo por BLAST, lo que representa el 55.48% de las clases en que BLAST no tiene un rendimiento perfecto. Además, se muestra un predominio de BLAST-KNN frente a BLAST al evaluar clases con más de un número EC asignado, mejorando el 60.3% de los casos. Por otro lado, se valida PANTHER, CDD y los descriptores propios de InterPro (IPR) como fuente importante de información al momento de predecir números EC a nuevas enzimas. Las limitantes del algoritmo propuesto están en la poca información por clase disponible, teniendo una distribución no uniforme en el número de muestras por etiquetas, lo que fuerza a utilizar algoritmos simples para clasificar. Se propone mejorar la representación de las enzimas incorporando nuevas características, así como extender el clasificador a uno que considere enzimas que no tengan los cuatro dígitos EC asignados.es_ES
Patrocinadordc.description.sponsorshipEste trabajo ha sido parcialmente financiado por Conicyt 11150107es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectAprendizaje de máquinaes_ES
Keywordsdc.subjectAlgoritmos - Procesamiento de datoses_ES
Keywordsdc.subjectProteínases_ES
Títulodc.titleMejoramiento de la clasificación funcional de enzimas usando aprendizaje de máquinases_ES
Document typedc.typeTesis
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ingeniería Eléctrica
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile