Show simple item record

Professor Advisordc.contributor.advisorDunstan Escudero, Jocelyn
Professor Advisordc.contributor.advisorMondschein Prieto, Susana
Authordc.contributor.authorAracena Cornejo, Claudio Felipe
Associate professordc.contributor.otherMaldonado Alarcón, Sebastián
Associate professordc.contributor.otherParra Santander, Denis
Admission datedc.date.accessioned2025-04-07T20:44:38Z
Available datedc.date.available2025-04-07T20:44:38Z
Publication datedc.date.issued2024
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/204141
Abstractdc.description.abstractEsta tesis tiene como objetivo desarrollar y evaluar modelos de lenguaje pre-entrenados (PLMs por sus siglás en inglés) para el procesamiento del lenguaje natural (PLN) clínico en español. A pesar de la creciente importancia del PLN clínico, la mayoría de la investigación se ha centrado en el inglés, dejando un espacio en recursos y modelos para otros idiomas. Este trabajo tiene como objetivo llenar ese espacio explorando si los datos exclusivamente clínicos o una combinación de datos clínicos, biomédicos y generales son más efectivos para el pre-entrenamiento, y evaluando varias arquitecturas de PLMs para tareas clínicas en español. Para este trabajo, se compiló un gran corpus clínico de más de mil millones de tokens a partir de 7,1 millones de registros de salud ocupacional, lo que representa el corpus de pre-entrenamiento relacionado con datos clínicos más grande conocido en español. Se crearon dos nuevos corpus anotados para la evaluación del reconocimiento de entidades nombradas (NER por sus siglás en inglés): ACHS-privacy y ACHS-privacy-medical. Se implementaron varios PLMs utilizando arquitecturas BERT, RoBERTa y ALBERT, con enfoques de pre-entrenamiento continuo y pre-entrenamiento desde cero. En términos de evaluación, se desarrolló un nuevo método de evaluación intrínseca basado en distancias de grafos para evaluar conceptos médicos, y se realizaron evaluaciones extrínsecas en tareas NER en varios corpus clínicos. Los resultados muestran al modelo BERTACHS, desarrollado a través del preentrenamiento continuo de BETO en el corpus clínico, mostró un mejor desempeño en tareas NER clínicas de fuentes chilenas. Para tareas NER clínicas de fuentes internacionales en español, los modelos más grandes como CLIN-X y RoBERTa-bne-large tuvieron el mejor desempeño, lo que demuestra la importancia de la escala del modelo. Estos resultados sugieren que la combinación de datos de pre-entrenamiento biomédicos o clínicos y de dominio general tuvo un mejor desempeño que el uso de datos clínicos solos, bajo las condiciones de este trabajo. Sin embargo, ninguna arquitectura en particular tuvo un desempeño superior de manera consistente, aunque las arquitecturas BERT y XLM-RoBERTa tuvieron un buen desempeño en general. Las comparaciones con modelos de lenguaje grandes (LLMs) fine-tuneados revelaron que, si bien los LLM son prometedores, los PLM clínicos aún los superan en tareas de NER clínicas. Esta investigación mejora las capacidades de PLN clínicas en español, brindando recursos lingüísticos y hallazgos para trabajos futuros. Destaca la importancia de seleccionar fuentes de datos y arquitecturas de modelos al desarrollar PLM para aplicaciones clínicas en idiomas distintos del inglés.es_ES
Patrocinadordc.description.sponsorshipEste trabajo ha sido parcialmente financiado por la beca de Doctorado Nacional de ANIDes_ES
Lenguagedc.language.isoenes_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleDevelopment of pre-trained language models for clinical NLP in spanishes_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoDepartamento de Ingeniería Industriales_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.carrerauchile.carreraIngeniería Civil Industriales_ES
uchile.gradoacademicouchile.gradoacademicoDoctoradoes_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Doctor en Sistemas de Ingenieríaes_ES


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States