Sistema de identificación del tipo de cáncer basado en aprendizaje de máquinas
Professor Advisor
dc.contributor.advisor
Orchard Concha, Marcos
Professor Advisor
dc.contributor.advisor
Oróstica Tapia, Karen
Author
dc.contributor.author
Molina Bustos, Samuel Esteban
Associate professor
dc.contributor.other
Ríos Pérez, Sebastián
Admission date
dc.date.accessioned
2024-12-02T20:46:43Z
Available date
dc.date.available
2024-12-02T20:46:43Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.other
10.58011/ck7a-3y51
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/202105
Abstract
dc.description.abstract
El cáncer es una de las enfermedades más prevalentes y mortales a nivel mundial, y representa un desafío para la salud pública. La metástasis, principal causa de muerte en casos de cáncer, inicia cuando las células cancerosas abandonan el tumor primario y se desplazan a órganos distantes a través del sistema sanguíneo o linfático. Al llegar a estos nuevos órganos, las células cancerosas colonizan, interfieren con su función normal y provocan deterioro en la salud del paciente, culminando en la muerte. Identificar el origen de un tumor metastásico es una tarea tecnológica y económicamente desafiante. Se estima que entre el 3 % y el 5 % de los casos de cáncer se clasifican como cáncer de origen desconocido (CUP, por sus siglas en inglés) debido a las limitaciones de las técnicas diagnósticas actuales para detectar el sitio de origen del tumor. Los pacientes con CUP a menudo reciben tratamientos genéricos en lugar de terapias específicas debido a la dificultad para identificar el sitio primario. En este contexto, el aprendizaje de máquinas ha cobrado relevancia en este campo, principalmente por su capacidad para analizar grandes volúmenes de datos clínicos y genómicos, permitiendo la identificación de patrones y características específicas vinculadas a cada tipo de cáncer.
En este trabajo, se desarrolló una metodología para implementar un clasificador multiclase que abarca 13 tipos de cáncer. La implementación se basó en datos mutacionales y clínicos de pacientes con tumores primarios conocidos, obtenidos de la porción pública del proyecto Pan-Cancer Analysis of Whole Genomes (PCAWG). Se llevó a cabo el análisis de los genomas completos de 1.585 pacientes y, en particular, se optó por seleccionar mutaciones de un solo nucleótido para la creación de categorías de variables mutacionales. Se evaluó la eficacia
de los algoritmos Random Forest, Xgboost y redes neuronales como clasificadores multiclase. Además, se emplearon diversos recursos de la ciencia de datos para la selección de las mejores variables predictoras, así como para identificar aquellas variables genómicas que más contribuyeron en la predicción de cada tipo de cáncer.
El mejor clasificador desarrollado fue un modelo de red neuronal a partir del cual se obtuvo un 97,7 % de accuracy general, f1-score ponderado y recall ponderado sobre el conjunto de prueba conformado por 397 pacientes. Este clasificador se pudo evaluar en un conjunto independiente de 64 pacientes de cáncer “Prost-AdenoCA”, donde logró una tasa de clasificación correcta del 92,2 %, acertando en 59 individuos. Finalmente, se utilizó el análisis SHAP para identificar las variables que tuvieron un impacto significativo en el modelo, tanto en su conjunto como de manera individual para cada tipo de cáncer.
es_ES
Patrocinador
dc.description.sponsorship
Este trabajo ha sido parcialmente financiado por:
FONDECYT 1210031
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States