Professor Advisor | dc.contributor.advisor | Ríos Pérez, Sebastián | |
Author | dc.contributor.author | Hernández Stoma, Tomás Alejandro | |
Associate professor | dc.contributor.other | Cleveland Ortega, Pablo | |
Associate professor | dc.contributor.other | Jiménez Molina, Ángel | |
Admission date | dc.date.accessioned | 2025-03-20T15:10:31Z | |
Available date | dc.date.available | 2025-03-20T15:10:31Z | |
Publication date | dc.date.issued | 2024 | |
Identifier | dc.identifier.uri | https://repositorio.uchile.cl/handle/2250/203700 | |
Abstract | dc.description.abstract | En el lenguaje natural, las abreviaciones son palabras acortadas que se usan comúnmente para facilitar la comunicación, evitando la repetición excesiva de palabras. Los acrónimos son una de las principales formas de abreviatura, donde la palabra reducida se construye a partir de las siglas de la palabra o conjunto de palabras original. El uso generalizado de acrónimos supone un desafío importante para los sistemas de procesamiento de lenguaje natural (PLN) ya que genera ruido en la automatización de tareas que requieren comprensión del lenguaje en grandes corpus de texto. Este problema adquiere notable importancia en dominios especializados como el área de la salud, donde el historial médico de pacientes se almacena como texto libre y los procedimientos clínicos, enfermedades y otros conceptos técnicos son descritos mediante acrónimos, lo cual dificulta a los sistemas, como la historia clínica electrónica, para procesar estos datos, por lo que es importante identificar el significado correcto de estas abreviaturas. Sin embargo, el principal problema es que un acrónimo puede tener múltiples significados en función de su contexto y/o dominio. Esta ambigüedad semántica es extremadamente difícil de resolver de forma automática. La desambiguación de acrónimos se refiere al problema de recuperar el sentido correcto de un acrónimo ambiguo dado su contexto. En esta tesis el objetivo principal es desarrollar un modelo para resolver este problema. Se introduce un nuevo método para la desambiguación de acrónimos, combinando las capacidades de modelos de lenguaje basados en redes neuronales profundas con técnicas de topic modeling. Se utiliza una arquitectura BERT pre-entrenada en español para las representaciones contextuales, y modelos LDA y top2vec para la representación temática de los textos, integrando ambos para aprovechar la información local y global. Además se generan dos conjuntos de datos para la desambiguación de acrónimos en español, de dominio general y médico respectivamente, a partir de corpus disponibles públicamente. Los resultados muestran que este enfoque combinado mejora significativamente el rendimiento comparado con usar sólo un modelo pre-entrenado, lo que revela que la integración del contexto local y global es esencial para la resolución semántica de acrónimos, especialmente en versiones multidominio del problema. | es_ES |
Abstract | dc.description.abstract | In natural language, abbreviations are shortened words commonly used to facilitate
communication and avoid verbosity in certain contexts. Acronyms are one of the main
forms of abbreviation, where the short form is constructed from the initial letters of the
original word or phrase. The widespread use of acronyms present a significant challenge
for natural language processing (NLP) systems as it adds noise for automated tasks that
rely on language understanding of large text corpora, this issue is particularly relevant in
specialized domains such as healthcare, where crucial information about patients history
is stored as free-text and clinical procedures, diseases and other technical concepts are
written as acronyms creating difficulties for automated systems such as electronic health
records to process patient data, thus it is important to identify the correct meaning of
these abbreviated terms. However, the main problem is that a single acronym can have
multiple meanings depending on its context and/or domain. This semantic ambiguity is
extremely difficult to solve automatically. Acronym disambiguation refers to the problem
of retrieving the correct sense of an ambiguous acronym given its context. In this thesis
our main objective is to develop a model to solve this form of ambiguity. We introduce a
new method for this problem, by combining the capabilities of large language models with
topic modeling techniques. We apply a pre-trained Spanish BERT for contextual representations, and LDA and top2vec models for topic representation of sentences, integrating both to leverage both local and global information. We show the effectiveness of our
approach through two acronym disambiguation datasets from a general and healthcare
domains which we generate from unstructured Spanish corpora. Our findings show that
this combined approach significantly improves performance compared to solely fine-tuning
a language model, revealing that integrating both local and global context is essential for
acronym sense resolution, especially in a multi-domain version of the problem. This research not only advances the research in acronym disambiguation but also provides new
resources for the resolution of acronym sense in Spanish. | |
Lenguage | dc.language.iso | en | es_ES |
Publisher | dc.publisher | Universidad de Chile | es_ES |
Type of license | dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | * |
Link to License | dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | * |
Título | dc.title | Combining topic modeling and large language models for acronym disambiguation in spanish | es_ES |
Document type | dc.type | Tesis | es_ES |
dc.description.version | dc.description.version | Versión original del autor | es_ES |
dcterms.accessRights | dcterms.accessRights | Acceso abierto | es_ES |
Cataloguer | uchile.catalogador | chb | es_ES |
Department | uchile.departamento | Escuela de Postgrado y Educación Continua | es_ES |
Department | uchile.departamento | Departamento de Ingeniería Industrial | |
Faculty | uchile.facultad | Facultad de Ciencias Físicas y Matemáticas | es_ES |
uchile.gradoacademico | uchile.gradoacademico | Magister | es_ES |
uchile.notadetesis | uchile.notadetesis | Tesis para optar al grado de Magíster en Gestión de Operaciones | es_ES |
uchile.notadetesis | uchile.notadetesis | Memoria para optar al título de Ingeniero Civil Industrial | |