Nested named entity recognition in diagnoses from the chilean waiting list in public hospitals
Tesis
![Thumbnail](/themes/Mirage2/images/cubierta.jpg)
Access note
Acceso abierto
Publication date
2022Metadata
Show full item record
Cómo citar
Bravo Márquez, Felipe
Cómo citar
Nested named entity recognition in diagnoses from the chilean waiting list in public hospitals
Author
Professor Advisor
Abstract
En el sistema de salud público Chileno, las interconsultas realizadas por el médico general se presentan en forma de texto libre. Dentro de estos textos, podemos encontrar palabras (entidades) con relevancia clínica, como enfermedades, medicamentos, hallazgos clínicos, entre otros. La naturaleza no estructurada de estos textos, hace que el análisis manual sea complejo, incluso para los especialistas. Es por esto, que el desarrollo de un sistema de extracción automática de estas entidades, sería un importante apoyo tanto para la gestión de la lista de espera Chilena, así como el uso secundario de la información.
Con el propósito de desarrollar estos modelos, nuestro grupo de investigación utilizó el conocimiento experto para anotar entidades con relevancia clínica dentro de estos diagnósticos, consolidando así el corpus de la Lista de Espera Chilena. Este conjunto de datos contiene un alto porcentaje de entidades anidadas (46.7%), lo que constituye una tarea más conocida como el Reconocimiento de Entidades Nombradas Anidadas (NER anidado).
En esta tesis, utilizamos los avances recientes en aprendizaje profundo para desarrollar el modelo Multiple LSTM-CRF (MLC), un método capaz de reconocer entidades anidadas en nuestro corpus. Para validar su efectividad, llevamos a cabo un estudio empírico comparando nuestra arquitectura con varios modelos del estado del arte y otros datasets, prestando especial atención al impacto del uso de modelos del lenguaje pre-entrenados. Los resultados experimentales confirman la eficacia del modelo MLC, alcanzando el estado del arte en nuestro corpus con un micro F1-score de 80.5 y un rendimiento competitivo en el resto.
Adicionalmente, se proponen nuevas métricas de evaluación que nos permiten medir la capacidad de los modelos para detectar entidades anidadas, lo cual no ha sido abordado en trabajos previos. Los resultados señalan que la métrica de NER anidado no mide correctamente la capacidad de un modelo para detectar entidades anidadas, mientras que nuestras métricas proporcionan nuevas pruebas sobre cómo los enfoques existentes manejan la tarea. Finalmente, nuestro modelo fue incorporado a una página web, permitiendo que profesionales de la salud puedan probarlo y entregar retroalimentación para mejorar su rendimiento. Este trabajo constituye el primer intento de resolver la tarea de NER anidado en un corpus en Español, siendo además una herramienta importante para el estudio de la lista de espera.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias, Mención Computación Memoria para optar al título de Ingeniero Civil en Computación
Collections
The following license files are associated with this item: