Detección automática de metástasis a distancia descrita en reportes de imagenología mediante el uso de procesamiento de lenguaje natural
Tesis
Open/ Download
Access note
Acceso abierto
Publication date
2022Metadata
Show full item record
Cómo citar
Dunstan Escudero, Jocelyn Mariel
Cómo citar
Detección automática de metástasis a distancia descrita en reportes de imagenología mediante el uso de procesamiento de lenguaje natural
Author
Professor Advisor
Abstract
Antecedentes: La mortalidad por cáncer se produce principalmente por la progresión
del tumor a la etapa de metástasis a distancia. Uno de los criterios para determinar
progresión a esta etapa es un examen de imagenología o medicina nuclear. Realizar
un tratamiento curativo depende, muchas veces, de la ausencia de metástasis a
distancia. Por lo que contar con esta información permite la gestión y priorización de
pacientes en lista de espera por intervenciones o tratamientos.
Problema: La metástasis a distancia no se encuentra estandarizada en el registro
clínico electrónico del Instituto Oncológico de la Fundación Arturo López Pérez, sino
que está en formato de texto libre. Esto dificulta el acceso para la gestión clínica y,
detectar manualmente estos hallazgos, consume horas de personal. Por otro lado, la
pesquisa de metástasis a distancia se realiza con el análisis de cada reporte de
imagenología o medicina nuclear en texto libre, desde donde tampoco se puede
extraer la condición de metástasis a distancia de manera automática.
Solución: En esta tesis se propone el desarrollo de un modelo de procesamiento del
lenguaje natural capaz de detectar la metástasis a distancia en reportes de
imagenología y medicina nuclear y clasificarlos según la presencia o ausencia de
esta.
Método: A partir de un corpus anotado con menciones de metástasis afirmativas,
negadas o inciertas, se entrenó un modelo de reconocimiento de entidades
nombradas basado en una red neuronal recurrente capaz de extraer automáticamente
los hallazgos de metástasis a distancia y a partir de ellos, clasificar a nivel de
documento cada reporte. Se comparó el rendimiento, medido en precisión,
exhaustividad y F1-score, de este modelo con un algoritmo basado en reglas, que se
utilizó como línea de base.
Resultados: Es posible detectar metástasis a distancia de cáncer de próstata, cáncer
de mama y cáncer colorrectal en reportes de imagenología y medicina nuclear,
utilizando métodos de procesamiento de lenguaje natural. Se logró detectar entidades
de metástasis a distancia al interior del texto clínico con una media balanceada de
rendimiento de 0,856 medido en F1-score. Además, se clasificó los documentos
utilizando aprendizaje profundo con rendimientos máximos, medidos en F1-score, de
0,90 para documentos sin metástasis a distancia (M0) y 0,87 para documentos que sí
presentaban metástasis a distancia (M1). Background: Cancer mortality is mainly caused by progression of the tumor to the
distant metastatic stage. One of the criteria to determine progression to this stage is
an imaging or nuclear medicine examination. Curative treatment often depends on the
absence of distant metastases. Having this information allows the management and
prioritization of patients on the waiting list for interventions or treatments.
Problem: Distant metastasis is not standardized in the electronic health record of the
Oncology Institute of the Arturo López Pérez Foundation, but is in free text format.
This makes it difficult to access for clinical management, and manually detecting these
findings consumes staff hours. On the other hand, the screening for distant
metastases is performed with the analysis of each radiology or nuclear medicine report
in free text, from where the distant metastasis condition cannot be extracted
automatically either.
Solution: In this thesis we propose the development of a natural language processing
model capable of detecting distant metastasis in radiology and nuclear medicine
reports and classifying them according to the presence or absence of it.
Methods: A named entity recognition model based on a recurrent neural network was
developed based on an annotated corpus with affirmative, denied or uncertain
metastasis mentions. This model was capable of automatically extracting distant
metastasis findings and classifying each report at document level. The performance,
measured in precision, completeness and F1-score, of this model was compared with
a rule-based algorithm, which was used as a baseline.
Results: It is possible to detect distant metastases of prostate cancer, breast cancer
and colorectal cancer in imaging and nuclear medicine reports using natural language
processing methods. We were able to detect distant metastasis entities within the
clinical text with a balanced mean performance of 0,856 measured in F1-score. In
addition, documents were classified using deep learning with maximum F1-score
performances of 0.90 for documents without distant metastases (M0) and 0.87 for
documents with distant metastases (M1).
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Informática Médica
Identifier
URI: https://repositorio.uchile.cl/handle/2250/200437
Collections
The following license files are associated with this item: