Sistema de identificación del tipo de cáncer basado en aprendizaje de máquinas
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Orchard Concha, Marcos
Cómo citar
Sistema de identificación del tipo de cáncer basado en aprendizaje de máquinas
Author
Professor Advisor
Abstract
El cáncer es una de las enfermedades más prevalentes y mortales a nivel mundial, y representa un desafío para la salud pública. La metástasis, principal causa de muerte en casos de cáncer, inicia cuando las células cancerosas abandonan el tumor primario y se desplazan a órganos distantes a través del sistema sanguíneo o linfático. Al llegar a estos nuevos órganos, las células cancerosas colonizan, interfieren con su función normal y provocan deterioro en la salud del paciente, culminando en la muerte. Identificar el origen de un tumor metastásico es una tarea tecnológica y económicamente desafiante. Se estima que entre el 3 % y el 5 % de los casos de cáncer se clasifican como cáncer de origen desconocido (CUP, por sus siglas en inglés) debido a las limitaciones de las técnicas diagnósticas actuales para detectar el sitio de origen del tumor. Los pacientes con CUP a menudo reciben tratamientos genéricos en lugar de terapias específicas debido a la dificultad para identificar el sitio primario. En este contexto, el aprendizaje de máquinas ha cobrado relevancia en este campo, principalmente por su capacidad para analizar grandes volúmenes de datos clínicos y genómicos, permitiendo la identificación de patrones y características específicas vinculadas a cada tipo de cáncer.
En este trabajo, se desarrolló una metodología para implementar un clasificador multiclase que abarca 13 tipos de cáncer. La implementación se basó en datos mutacionales y clínicos de pacientes con tumores primarios conocidos, obtenidos de la porción pública del proyecto Pan-Cancer Analysis of Whole Genomes (PCAWG). Se llevó a cabo el análisis de los genomas completos de 1.585 pacientes y, en particular, se optó por seleccionar mutaciones de un solo nucleótido para la creación de categorías de variables mutacionales. Se evaluó la eficacia
de los algoritmos Random Forest, Xgboost y redes neuronales como clasificadores multiclase. Además, se emplearon diversos recursos de la ciencia de datos para la selección de las mejores variables predictoras, así como para identificar aquellas variables genómicas que más contribuyeron en la predicción de cada tipo de cáncer.
El mejor clasificador desarrollado fue un modelo de red neuronal a partir del cual se obtuvo un 97,7 % de accuracy general, f1-score ponderado y recall ponderado sobre el conjunto de prueba conformado por 397 pacientes. Este clasificador se pudo evaluar en un conjunto independiente de 64 pacientes de cáncer “Prost-AdenoCA”, donde logró una tasa de clasificación correcta del 92,2 %, acertando en 59 individuos. Finalmente, se utilizó el análisis SHAP para identificar las variables que tuvieron un impacto significativo en el modelo, tanto en su conjunto como de manera individual para cada tipo de cáncer.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos Memoria para optar al título de Ingeniero Civil Eléctrico
Patrocinador
Este trabajo ha sido parcialmente financiado por:
FONDECYT 1210031
Collections
The following license files are associated with this item: