Análisis y automatización del procesamiento de requerimientos de la Ley de Transparencia en el Ministerio de Salud utilizando técnicas de procesamiento del lenguaje natural
Access note
Acceso abierto
Publication date
2025Metadata
Show full item record
Cómo citar
Ríos Pérez, Sebastián
Cómo citar
Análisis y automatización del procesamiento de requerimientos de la Ley de Transparencia en el Ministerio de Salud utilizando técnicas de procesamiento del lenguaje natural
Author
Professor Advisor
Abstract
La presente investigación se centra en la optimización del procesamiento de solicitudes de información recibidas por el Ministerio de Salud en el marco de la Ley de Transparencia, empleando técnicas avanzadas de Procesamiento del Lenguaje Natural. Mediante el desarrollo de modelos centrados en el reconocimiento de entidades nombradas y en la clasificación de solicitudes según el área de derivación, se buscó agilizar la respuesta institucional y aprovechar de manera más eficiente los recursos ministeriales.
Los resultados muestran que las arquitecturas basadas en XLM-RoBERTa, con atención bidireccional, superan de manera consistente a modelos masivos tipo Large Language Models (LLM) entrenados con QLoRA, tanto en la tarea de clasificación como en la de reconocimiento de entidades. En la clasificación de áreas de derivación, la variante XLM-RoBERTa-Large sin distinción entre mayúsculas y minúsculas (uncased) alcanzó un F1-Score cercano a un 75%, lo que representa una mejora sustancial en comparación con los LLM que no superaron el 52%. En el reconocimiento de entidades nombradas, las diferencias fueron aún más marcadas, ya que la misma variante obtuvo cerca de un 83,5% de F1-Score, mientras que las soluciones basadas en LLM lograron resultados apenas superiores al 40%.
La investigación demuestra, además, que las versiones uncased generan mayor estabilidad y robustez en los desempeños, reduciendo la complejidad en el espacio de representación lingüística. Aunque se observó cierto grado de sobreajuste, el modelo XLM-RoBERTa-Large uncased mantuvo una alta capacidad de generalización en las pruebas, evidenciando su aptitud para adaptarse al dominio específico con datos limitados. Estos hallazgos sientan las bases para extender el enfoque en el futuro, aumentando el volumen de información disponible, mejorando el etiquetado de datos y explorando arquitecturas sin atención causal, con el propósito de reforzar la precisión y la eficacia en el tratamiento automatizado de la información pública. De este modo, se espera contribuir a la eficiencia, transparencia y calidad del servicio que el Estado ofrece a la ciudadanía.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos Memoria para optar al título de Ingeniero Civil Industrial
Identifier
URI: https://repositorio.uchile.cl/handle/2250/205291
Collections
The following license files are associated with this item: