Generación de contrafactuales guiados por los sesgos de predicción en modelos de NLP

Farías Riquelme, Benjamín Ignacio

Tesis

Open/Download

Generacion-de-contrafactuales-guiados-por-los-sesgos-de-prediccion-en-modelos-de-NLP.pdf (4.136Mb)

Access note

Acceso abierto

Publication date

2025

Metadata

Show full item record

Cómo citar

Generación de contrafactuales guiados por los sesgos de predicción en modelos de NLPFormato de cita

Copiar

Cerrar

Author

Farías Riquelme, Benjamín Ignacio;

Professor Advisor

Abstract

A la par del aumento de la complejidad de los modelos de procesamineto de lenguaje natural (NLP), en base a redes neuronales, y de su aplicación en distintos problemas, también ha crecido la necesidad de que estos modelos cumplan, no sólo con rendir en sus respectivas tareas, sino también con criterios como seguridad, robustez, privacidad, transparencia o equidad. Esto es debido en gran parte a que, por lo general, las acciones de los modelos no son interpretables y, por el mismo motivo, avanzar en el desarrollo de técnicas de explicabilidad de redes neuronales, ayuda a poder evaluar y mejorar el desempeño en dichos criterios. Según estudios en psicología cognitiva, uno de los formatos a través del que mejor se explican relaciones causales, son los ejemplos contrafactuales. En NLP, un ejemplo contrafactual es un texto similar a otro, que se desea evaluar, pero que produce un resultado distinto en el modelo. Estos ejemplos resultan útiles para explicar una decisión particular, pero no mucho para entender el modelo en sí. Para obtener un mejor entendimiento del modelo, a partir de estas explicaciones, se propone crear contrafactuales de forma tal que muestren los cambios que más favorecen una respuesta predeterminada. A estos se los llama contrafactuales guiados. El objetivo de esta tesis es probar que es posible generar ejemplos contrafactuales guiados, por medio de desplazar los embeddings de un texto de entrada, en la dirección que maximiza la probabilidad de una respuesta, y luego recuperar su significado en texto con una red auxiliar, denominada intérprete, que se encarga de ``traducir'' qué está leyendo el modelo evaluado. Para ello se propone un algortimo que genera secuencias de ejemplos contrafactuales, modificando iterativamente una entrada, en dirección del gradiente de una función de pérdida. El algortimo propuesto es evaluado en problemas de modelamiento de lenguaje enmascarado y clasificación de comentarios tóxicos. Los resultados obtenidos muestran que, en problemas de modelemiento de lenguaje enmascarado, se pueden generar exitosamente ejemplos contrafactuales guiados, pero en los de clasificación, los ejemplos sólo logran mantener la plausibilidad de los texto en la primera iteración del algortimo. También se comprobó que las perturbaciones hechas a los embeddings son casi inperceptibles espacialmente, con lo que las traducciones del intérprete dependen directamente de cómo el modelo procesa la información.A la par del aumento de la complejidad de los modelos de procesamineto de lenguaje natural (NLP), en base a redes neuronales, y de su aplicación en distintos problemas, también ha crecido la necesidad de que estos modelos cumplan, no sólo con rendir en sus respectivas tareas, sino también con criterios como seguridad, robustez, privacidad, transparencia o equidad. Esto es debido en gran parte a que, por lo general, las acciones de los modelos no son interpretables y, por el mismo motivo, avanzar en el desarrollo de técnicas de explicabilidad de redes neuronales, ayuda a poder evaluar y mejorar el desempeño en dichos criterios. Según estudios en psicología cognitiva, uno de los formatos a través del que mejor se explican relaciones causales, son los ejemplos contrafactuales. En NLP, un ejemplo contrafactual es un texto similar a otro, que se desea evaluar, pero que produce un resultado distinto en el modelo. Estos ejemplos resultan útiles para explicar una decisión particular, pero no mucho para entender el modelo en sí. Para obtener un mejor entendimiento del modelo, a partir de estas explicaciones, se propone crear contrafactuales de forma tal que muestren los cambios que más favorecen una respuesta predeterminada. A estos se los llama contrafactuales guiados. El objetivo de esta tesis es probar que es posible generar ejemplos contrafactuales guiados, por medio de desplazar los embeddings de un texto de entrada, en la dirección que maximiza la probabilidad de una respuesta, y luego recuperar su significado en texto con una red auxiliar, denominada intérprete, que se encarga de ``traducir'' qué está leyendo el modelo evaluado. Para ello se propone un algortimo que genera secuencias de ejemplos contrafactuales, modificando iterativamente una entrada, en dirección del gradiente de una función de pérdida. El algortimo propuesto es evaluado en problemas de modelamiento de lenguaje enmascarado y clasificación de comentarios tóxicos. Los resultados obtenidos muestran que, en problemas de modelemiento de lenguaje enmascarado, se pueden generar exitosamente ejemplos contrafactuales guiados, pero en los de clasificación, los ejemplos sólo logran mantener la plausibilidad de los texto en la primera iteración del algortimo. También se comprobó que las perturbaciones hechas a los embeddings son casi inperceptibles espacialmente, con lo que las traducciones del intérprete dependen directamente de cómo el modelo procesa la información.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Tesis para optar al grado de Magíster en Ciencia de Datos

Memoria para optar al grado de Ingeniero Civil en Computación

Patrocinador

Este trabajo ha sido parcialmente financiado por Instituto Milenio Fundamentos de los Datos

Identifier

URI: https://repositorio.uchile.cl/handle/2250/205017

Collections