Predicción de severidad Covid-19 utilizando modelos de Machine Learning aplicado a secuencias en datos genéticos a nivel de genoma
Professor Advisor
dc.contributor.advisor
Verdugo Salgado, Ricardo
Professor Advisor
dc.contributor.advisor
Pérez Rojas, Jorge
Author
dc.contributor.author
Sáez Hidalgo, Juan Manuel
Associate professor
dc.contributor.other
Dunstan Escudero, Jocelyn
Associate professor
dc.contributor.other
Abeliuk Kimelman, Andrés
Associate professor
dc.contributor.other
Mendoza Rocha, Marcelo
Admission date
dc.date.accessioned
2022-12-07T16:13:57Z
Available date
dc.date.available
2022-12-07T16:13:57Z
Publication date
dc.date.issued
2022
Identifier
dc.identifier.other
10.58011/z4ee-zs14
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/189679
Abstract
dc.description.abstract
Como parte de la iniciativa internacional Covid19 host genetics, el proyecto COVID0961 recopila datos clínicos autoreportados y variantes genéticas a nivel de genoma de participantes infectados por el virus SARS-CoV-2. En el contexto de este proyecto, esta tesis busca utilizar dichos datos para generar modelos de Machine Learning (ML) que permitan predecir la severidad del cuadro Covid19, particularmente la hospitalización provocada por el virus.
En este trabajo, se utilizan los datos clínicos obtenidos para entrenar un modelo ML. Este modelo sirve como punto de partida, para comparar si al agregar variantes genéticas a los datos de entrenamiento, las predicciones de severidad mejoran. La implementación del modelo que utiliza tanto datos clínicos como genéticos se realizó mediante dos aproximaciones: (1) una arquitectura de redes neuronales diseñada para este propósito y (2) la selección de variantes genéticas que se agregan al set de entrenamiento del modelo baseline ML.
Mediante el entrenamiento con datos clínicos de 1872 participantes, se obtiene un modelo XGBoost capaz de predecir la hospitalización con un accuracy de 88% y f1-score de un 60%. Utilizando este modelo como referencia se busca obtener un modelo de procesamiento de secuencia que obtenga mejores métricas utilizando tanto datos clínicos como variantes genéticas.
En la primera aproximación, debido a las limitaciones de recursos computacionales, se seleccionaron las variantes según su significancia estadística. Usando estas variantes y los datos clínicos disponibles, el modelo utilizado Dual-stream CNN, no alcanza métricas mayores a la referencia que utiliza solo datos clínicos, alcanzando un f1-score de 56.9% y un accuracy de 87.6%. Sin embargo, el perfil de la saliencia de las variantes en la red entrenada se asemeja al perfil obtenido por la técnica actual de genética de poblaciones. Incluso, señala como punto de mayor saliencia una variante genética dentro del gen FOXP4-AS1 no reportado en estudios anteriores.
En la segunda aproximación, se agregan progresivamente variantes genéticas al entrenamiento del modelo XGBoost. Esta selección de variantes se realiza de forma de agregar variantes reportadas como significativas y descartar variantes ligadas entre sí. En este experimento, se evidencia que el f1-score sí aumenta al agregar entre 100 y 200 variantes no ligadas, que es superior al número de loci reportados. Esto último sugiere que la genética del hospedero sí entrega información relevante para la severidad.
Ambos resultados sugieren que las variantes genéticas entregan información, aunque un modelo capaz de filtrar aquellas que agregan ruido requieren una mayor cantidad de ejemplos al entrenamiento que permitan un modelo generalizable.
es_ES
Patrocinador
dc.description.sponsorship
ANID mediante proyects FONDECYT Regular 1191948 y Anillo ACT210085
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States