Predicción de severidad Covid-19 utilizando modelos de Machine Learning aplicado a secuencias en datos genéticos a nivel de genoma

Sáez Hidalgo, Juan Manuel

Professor Advisor	dc.contributor.advisor	Verdugo Salgado, Ricardo
Professor Advisor	dc.contributor.advisor	Pérez Rojas, Jorge
Author	dc.contributor.author	Sáez Hidalgo, Juan Manuel
Associate professor	dc.contributor.other	Dunstan Escudero, Jocelyn
Associate professor	dc.contributor.other	Abeliuk Kimelman, Andrés
Associate professor	dc.contributor.other	Mendoza Rocha, Marcelo
Admission date	dc.date.accessioned	2022-12-07T16:13:57Z
Available date	dc.date.available	2022-12-07T16:13:57Z
Publication date	dc.date.issued	2022
Identifier	dc.identifier.other	10.58011/z4ee-zs14
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/189679
Abstract	dc.description.abstract	Como parte de la iniciativa internacional Covid19 host genetics, el proyecto COVID0961 recopila datos clínicos autoreportados y variantes genéticas a nivel de genoma de participantes infectados por el virus SARS-CoV-2. En el contexto de este proyecto, esta tesis busca utilizar dichos datos para generar modelos de Machine Learning (ML) que permitan predecir la severidad del cuadro Covid19, particularmente la hospitalización provocada por el virus. En este trabajo, se utilizan los datos clínicos obtenidos para entrenar un modelo ML. Este modelo sirve como punto de partida, para comparar si al agregar variantes genéticas a los datos de entrenamiento, las predicciones de severidad mejoran. La implementación del modelo que utiliza tanto datos clínicos como genéticos se realizó mediante dos aproximaciones: (1) una arquitectura de redes neuronales diseñada para este propósito y (2) la selección de variantes genéticas que se agregan al set de entrenamiento del modelo baseline ML. Mediante el entrenamiento con datos clínicos de 1872 participantes, se obtiene un modelo XGBoost capaz de predecir la hospitalización con un accuracy de 88% y f1-score de un 60%. Utilizando este modelo como referencia se busca obtener un modelo de procesamiento de secuencia que obtenga mejores métricas utilizando tanto datos clínicos como variantes genéticas. En la primera aproximación, debido a las limitaciones de recursos computacionales, se seleccionaron las variantes según su significancia estadística. Usando estas variantes y los datos clínicos disponibles, el modelo utilizado Dual-stream CNN, no alcanza métricas mayores a la referencia que utiliza solo datos clínicos, alcanzando un f1-score de 56.9% y un accuracy de 87.6%. Sin embargo, el perfil de la saliencia de las variantes en la red entrenada se asemeja al perfil obtenido por la técnica actual de genética de poblaciones. Incluso, señala como punto de mayor saliencia una variante genética dentro del gen FOXP4-AS1 no reportado en estudios anteriores. En la segunda aproximación, se agregan progresivamente variantes genéticas al entrenamiento del modelo XGBoost. Esta selección de variantes se realiza de forma de agregar variantes reportadas como significativas y descartar variantes ligadas entre sí. En este experimento, se evidencia que el f1-score sí aumenta al agregar entre 100 y 200 variantes no ligadas, que es superior al número de loci reportados. Esto último sugiere que la genética del hospedero sí entrega información relevante para la severidad. Ambos resultados sugieren que las variantes genéticas entregan información, aunque un modelo capaz de filtrar aquellas que agregan ruido requieren una mayor cantidad de ejemplos al entrenamiento que permitan un modelo generalizable.	es_ES
Patrocinador	dc.description.sponsorship	ANID mediante proyects FONDECYT Regular 1191948 y Anillo ACT210085	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Keywords	dc.subject	COVID-19 (Enfermedad)
Keywords	dc.subject	Aprendizaje de máquina
Keywords	dc.subject	Bioinformática
Keywords	dc.subject	Genética de poblaciones
Keywords	dc.subject	Ciencia de datos
Título	dc.title	Predicción de severidad Covid-19 utilizando modelos de Machine Learning aplicado a secuencias en datos genéticos a nivel de genoma	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil en Computación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Ciencias, Mención Computación	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al título de Ingeniero Civil en Computación

Files in this item

Name:: Prediccion-de-severidad-Covid- ...
Size:: 21.64Mb
Format:: PDF

Name:: TablaConten.pdf
Size:: 146.4Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States