Show simple item record

Professor Advisordc.contributor.advisorVerdugo Salgado, Ricardo
Professor Advisordc.contributor.advisorPérez Rojas, Jorge
Authordc.contributor.authorSáez Hidalgo, Juan Manuel
Associate professordc.contributor.otherDunstan Escudero, Jocelyn
Associate professordc.contributor.otherAbeliuk Kimelman, Andrés
Associate professordc.contributor.otherMendoza Rocha, Marcelo
Admission datedc.date.accessioned2022-12-07T16:13:57Z
Available datedc.date.available2022-12-07T16:13:57Z
Publication datedc.date.issued2022
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/189679
Abstractdc.description.abstractComo parte de la iniciativa internacional Covid19 host genetics, el proyecto COVID0961 recopila datos clínicos autoreportados y variantes genéticas a nivel de genoma de participantes infectados por el virus SARS-CoV-2. En el contexto de este proyecto, esta tesis busca utilizar dichos datos para generar modelos de Machine Learning (ML) que permitan predecir la severidad del cuadro Covid19, particularmente la hospitalización provocada por el virus. En este trabajo, se utilizan los datos clínicos obtenidos para entrenar un modelo ML. Este modelo sirve como punto de partida, para comparar si al agregar variantes genéticas a los datos de entrenamiento, las predicciones de severidad mejoran. La implementación del modelo que utiliza tanto datos clínicos como genéticos se realizó mediante dos aproximaciones: (1) una arquitectura de redes neuronales diseñada para este propósito y (2) la selección de variantes genéticas que se agregan al set de entrenamiento del modelo baseline ML. Mediante el entrenamiento con datos clínicos de 1872 participantes, se obtiene un modelo XGBoost capaz de predecir la hospitalización con un accuracy de 88% y f1-score de un 60%. Utilizando este modelo como referencia se busca obtener un modelo de procesamiento de secuencia que obtenga mejores métricas utilizando tanto datos clínicos como variantes genéticas. En la primera aproximación, debido a las limitaciones de recursos computacionales, se seleccionaron las variantes según su significancia estadística. Usando estas variantes y los datos clínicos disponibles, el modelo utilizado Dual-stream CNN, no alcanza métricas mayores a la referencia que utiliza solo datos clínicos, alcanzando un f1-score de 56.9% y un accuracy de 87.6%. Sin embargo, el perfil de la saliencia de las variantes en la red entrenada se asemeja al perfil obtenido por la técnica actual de genética de poblaciones. Incluso, señala como punto de mayor saliencia una variante genética dentro del gen FOXP4-AS1 no reportado en estudios anteriores. En la segunda aproximación, se agregan progresivamente variantes genéticas al entrenamiento del modelo XGBoost. Esta selección de variantes se realiza de forma de agregar variantes reportadas como significativas y descartar variantes ligadas entre sí. En este experimento, se evidencia que el f1-score sí aumenta al agregar entre 100 y 200 variantes no ligadas, que es superior al número de loci reportados. Esto último sugiere que la genética del hospedero sí entrega información relevante para la severidad. Ambos resultados sugieren que las variantes genéticas entregan información, aunque un modelo capaz de filtrar aquellas que agregan ruido requieren una mayor cantidad de ejemplos al entrenamiento que permitan un modelo generalizable.es_ES
Patrocinadordc.description.sponsorshipANID mediante proyects FONDECYT Regular 1191948 y Anillo ACT210085es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Keywordsdc.subjectCOVID-19 (Enfermedad)
Keywordsdc.subjectAprendizaje de máquina
Keywordsdc.subjectBioinformática
Keywordsdc.subjectGenética de poblaciones
Keywordsdc.subjectCiencia de datos
Títulodc.titlePredicción de severidad Covid-19 utilizando modelos de Machine Learning aplicado a secuencias en datos genéticos a nivel de genomaes_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES
uchile.carrerauchile.carreraIngeniería Civil en Computaciónes_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Ciencias, Mención Computaciónes_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al título de Ingeniero Civil en Computación


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States