Sistema de identificación del tipo de cáncer basado en aprendizaje de máquinas

Molina Bustos, Samuel Esteban

Professor Advisor	dc.contributor.advisor	Orchard Concha, Marcos
Professor Advisor	dc.contributor.advisor	Oróstica Tapia, Karen
Author	dc.contributor.author	Molina Bustos, Samuel Esteban
Associate professor	dc.contributor.other	Ríos Pérez, Sebastián
Admission date	dc.date.accessioned	2024-12-02T20:46:43Z
Available date	dc.date.available	2024-12-02T20:46:43Z
Publication date	dc.date.issued	2024
Identifier	dc.identifier.other	10.58011/ck7a-3y51
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/202105
Abstract	dc.description.abstract	El cáncer es una de las enfermedades más prevalentes y mortales a nivel mundial, y representa un desafío para la salud pública. La metástasis, principal causa de muerte en casos de cáncer, inicia cuando las células cancerosas abandonan el tumor primario y se desplazan a órganos distantes a través del sistema sanguíneo o linfático. Al llegar a estos nuevos órganos, las células cancerosas colonizan, interfieren con su función normal y provocan deterioro en la salud del paciente, culminando en la muerte. Identificar el origen de un tumor metastásico es una tarea tecnológica y económicamente desafiante. Se estima que entre el 3 % y el 5 % de los casos de cáncer se clasifican como cáncer de origen desconocido (CUP, por sus siglas en inglés) debido a las limitaciones de las técnicas diagnósticas actuales para detectar el sitio de origen del tumor. Los pacientes con CUP a menudo reciben tratamientos genéricos en lugar de terapias específicas debido a la dificultad para identificar el sitio primario. En este contexto, el aprendizaje de máquinas ha cobrado relevancia en este campo, principalmente por su capacidad para analizar grandes volúmenes de datos clínicos y genómicos, permitiendo la identificación de patrones y características específicas vinculadas a cada tipo de cáncer. En este trabajo, se desarrolló una metodología para implementar un clasificador multiclase que abarca 13 tipos de cáncer. La implementación se basó en datos mutacionales y clínicos de pacientes con tumores primarios conocidos, obtenidos de la porción pública del proyecto Pan-Cancer Analysis of Whole Genomes (PCAWG). Se llevó a cabo el análisis de los genomas completos de 1.585 pacientes y, en particular, se optó por seleccionar mutaciones de un solo nucleótido para la creación de categorías de variables mutacionales. Se evaluó la eficacia de los algoritmos Random Forest, Xgboost y redes neuronales como clasificadores multiclase. Además, se emplearon diversos recursos de la ciencia de datos para la selección de las mejores variables predictoras, así como para identificar aquellas variables genómicas que más contribuyeron en la predicción de cada tipo de cáncer. El mejor clasificador desarrollado fue un modelo de red neuronal a partir del cual se obtuvo un 97,7 % de accuracy general, f1-score ponderado y recall ponderado sobre el conjunto de prueba conformado por 397 pacientes. Este clasificador se pudo evaluar en un conjunto independiente de 64 pacientes de cáncer “Prost-AdenoCA”, donde logró una tasa de clasificación correcta del 92,2 %, acertando en 59 individuos. Finalmente, se utilizó el análisis SHAP para identificar las variables que tuvieron un impacto significativo en el modelo, tanto en su conjunto como de manera individual para cada tipo de cáncer.	es_ES
Patrocinador	dc.description.sponsorship	Este trabajo ha sido parcialmente financiado por: FONDECYT 1210031	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	Sistema de identificación del tipo de cáncer basado en aprendizaje de máquinas	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	chb	es_ES
Department	uchile.departamento	Departamento de Ingeniería Eléctrica	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil Eléctrica	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Ciencia de Datos	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al título de Ingeniero Civil Eléctrico

Files in this item

Name:: Sistema-de-identificacion-del- ...
Size:: 7.794Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States