Development of pre-trained language models for clinical NLP in spanish
Tesis

Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Dunstan Escudero, Jocelyn
Cómo citar
Development of pre-trained language models for clinical NLP in spanish
Author
Professor Advisor
Abstract
Esta tesis tiene como objetivo desarrollar y evaluar modelos de lenguaje pre-entrenados (PLMs por sus siglás en inglés) para el procesamiento del lenguaje natural (PLN) clínico en español. A pesar de la creciente importancia del PLN clínico, la mayoría de la investigación se ha centrado en el inglés, dejando un espacio en recursos y modelos para otros idiomas. Este trabajo tiene como objetivo llenar ese espacio explorando si los datos exclusivamente clínicos o una combinación de datos clínicos, biomédicos y generales son más efectivos para el pre-entrenamiento, y evaluando varias arquitecturas de PLMs para tareas clínicas en español.
Para este trabajo, se compiló un gran corpus clínico de más de mil millones de tokens a partir de 7,1 millones de registros de salud ocupacional, lo que representa el corpus de pre-entrenamiento relacionado con datos clínicos más grande conocido en español. Se crearon dos nuevos corpus anotados para la evaluación del reconocimiento de entidades nombradas (NER por sus siglás en inglés): ACHS-privacy y ACHS-privacy-medical. Se implementaron varios PLMs utilizando arquitecturas BERT, RoBERTa y ALBERT, con enfoques de pre-entrenamiento continuo y pre-entrenamiento desde cero. En términos de evaluación, se desarrolló un nuevo método de evaluación intrínseca basado en distancias de grafos para evaluar conceptos médicos, y se realizaron evaluaciones extrínsecas en tareas NER en varios corpus clínicos.
Los resultados muestran al modelo BERTACHS, desarrollado a través del preentrenamiento continuo de BETO en el corpus clínico, mostró un mejor desempeño en tareas NER clínicas de fuentes chilenas. Para tareas NER clínicas de fuentes internacionales en español, los modelos más grandes como CLIN-X y RoBERTa-bne-large tuvieron el mejor desempeño, lo que demuestra la importancia de la escala del modelo.
Estos resultados sugieren que la combinación de datos de pre-entrenamiento biomédicos o clínicos y de dominio general tuvo un mejor desempeño que el uso de datos clínicos solos, bajo las condiciones de este trabajo. Sin embargo, ninguna arquitectura en particular tuvo un desempeño superior de manera consistente, aunque las arquitecturas BERT y XLM-RoBERTa tuvieron un buen desempeño en general. Las comparaciones con modelos de lenguaje grandes (LLMs) fine-tuneados revelaron que, si bien los LLM son prometedores, los PLM clínicos aún los superan en tareas de NER clínicas.
Esta investigación mejora las capacidades de PLN clínicas en español, brindando recursos lingüísticos y hallazgos para trabajos futuros. Destaca la importancia de seleccionar fuentes de datos y arquitecturas de modelos al desarrollar PLM para aplicaciones clínicas en idiomas distintos del inglés.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Doctor en Sistemas de Ingeniería
Patrocinador
Este trabajo ha sido parcialmente financiado por la beca de Doctorado Nacional de ANID
Identifier
URI: https://repositorio.uchile.cl/handle/2250/204141
Collections
The following license files are associated with this item: