Implementación de modelos de lenguaje pre entrenados para la mitigación del sesgo de género en comunicaciones escritas
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Tobar Henríquez, Felipe
Cómo citar
Implementación de modelos de lenguaje pre entrenados para la mitigación del sesgo de género en comunicaciones escritas
Author
Professor Advisor
Abstract
Los modelos de aprendizaje automático para tareas de procesamiento del lenguaje natural (NLP) suelen entrenarse con texto que puede presentar sesgo en cuanto al género, produciendo que dichos modelos puedan generar también resultados considerando dicho sesgo. Para afrontar parte de este problema, se propone una metodología para mitigar el sesgo de género en textos en español de comunicaciones escritas dentro de la Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile (FCFM) mediante transferencia de estilo de texto (TST), utilizando datos paralelos y un modelo de lenguaje pre entrenado (PLM) ajustado sobre dichos datos. El modelo ajustado es capaz de generar salidas con mitigación de sesgo de género, a partir de entradas que pueden o no tener sesgo de género. Se explora el ajuste de dos PLMs, Modelo de Lenguaje Causal (CausalLM) y Modelo de Lenguaje de Secuencia a Secuencia (Seq2SeqLM), utilizando un ajuste fino eficiente en parámetros (PEFT) con Adaptación de Bajo Rango (LoRA) en forma cuantizada (QLoRA). Los resultados obtenidos son prometedores, logrando una mitigación del sesgo de género frente a diversas entradas, lo cual es evaluado comparando el puntaje BLEU obtenido entre entradas sesgadas y sus salidas esperadas insesgadas, y el puntaje BLEU obtenido entre las salidas esperadas y las generadas por el modelo ajustado. Además, se entrega como contribución una Interfaz de Programación de Aplicaciones (API) con una demostración que muestra sugerencias de mitigación de sesgo en tiempo real, ofreciendo una herramienta práctica para abordar el sesgo de género en diversos contextos.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos
Patrocinador
Google y FONDECYT Regular 1210606
Identifier
URI: https://repositorio.uchile.cl/handle/2250/200245
Collections
The following license files are associated with this item: