Generación de contrafactuales guiados por los sesgos de predicción en modelos de NLP
Tesis

Access note
Acceso abierto
Publication date
2025Metadata
Show full item record
Cómo citar
Bravo Márquez, Felipe
Cómo citar
Generación de contrafactuales guiados por los sesgos de predicción en modelos de NLP
Professor Advisor
Abstract
A la par del aumento de la complejidad de los modelos de procesamineto de lenguaje natural (NLP), en base a redes neuronales, y de su aplicación en distintos problemas, también ha crecido la necesidad de que estos modelos cumplan, no sólo con rendir en sus respectivas tareas, sino también con criterios como seguridad, robustez, privacidad, transparencia o equidad. Esto es debido en gran parte a que, por lo general, las acciones de los modelos no son interpretables y, por el mismo motivo, avanzar en el desarrollo de técnicas de explicabilidad de redes neuronales, ayuda a poder evaluar y mejorar el desempeño en dichos criterios.
Según estudios en psicología cognitiva, uno de los formatos a través del que mejor se explican relaciones causales, son los ejemplos contrafactuales. En NLP, un ejemplo contrafactual es un texto similar a otro, que se desea evaluar, pero que produce un resultado distinto en el modelo. Estos ejemplos resultan útiles para explicar una decisión particular, pero no mucho para entender el modelo en sí. Para obtener un mejor entendimiento del modelo, a partir de estas explicaciones, se propone crear contrafactuales de forma tal que muestren los cambios que más favorecen una respuesta predeterminada. A estos se los llama contrafactuales guiados.
El objetivo de esta tesis es probar que es posible generar ejemplos contrafactuales guiados, por medio de desplazar los embeddings de un texto de entrada, en la dirección que maximiza la probabilidad de una respuesta, y luego recuperar su significado en texto con una red auxiliar, denominada intérprete, que se encarga de ``traducir'' qué está leyendo el modelo evaluado. Para ello se propone un algortimo que genera secuencias de ejemplos contrafactuales, modificando iterativamente una entrada, en dirección del gradiente de una función de pérdida. El algortimo propuesto es evaluado en problemas de modelamiento de lenguaje enmascarado y clasificación de comentarios tóxicos.
Los resultados obtenidos muestran que, en problemas de modelemiento de lenguaje enmascarado, se pueden generar exitosamente ejemplos contrafactuales guiados, pero en los de clasificación, los ejemplos sólo logran mantener la plausibilidad de los texto en la primera iteración del algortimo. También se comprobó que las perturbaciones hechas a los embeddings son casi inperceptibles espacialmente, con lo que las traducciones del intérprete dependen directamente de cómo el modelo procesa la información.A la par del aumento de la complejidad de los modelos de procesamineto de lenguaje natural (NLP), en base a redes neuronales, y de su aplicación en distintos problemas, también ha crecido la necesidad de que estos modelos cumplan, no sólo con rendir en sus respectivas tareas, sino también con criterios como seguridad, robustez, privacidad, transparencia o equidad. Esto es debido en gran parte a que, por lo general, las acciones de los modelos no son interpretables y, por el mismo motivo, avanzar en el desarrollo de técnicas de explicabilidad de redes neuronales, ayuda a poder evaluar y mejorar el desempeño en dichos criterios.
Según estudios en psicología cognitiva, uno de los formatos a través del que mejor se explican relaciones causales, son los ejemplos contrafactuales. En NLP, un ejemplo contrafactual es un texto similar a otro, que se desea evaluar, pero que produce un resultado distinto en el modelo. Estos ejemplos resultan útiles para explicar una decisión particular, pero no mucho para entender el modelo en sí. Para obtener un mejor entendimiento del modelo, a partir de estas explicaciones, se propone crear contrafactuales de forma tal que muestren los cambios que más favorecen una respuesta predeterminada. A estos se los llama contrafactuales guiados.
El objetivo de esta tesis es probar que es posible generar ejemplos contrafactuales guiados, por medio de desplazar los embeddings de un texto de entrada, en la dirección que maximiza la probabilidad de una respuesta, y luego recuperar su significado en texto con una red auxiliar, denominada intérprete, que se encarga de ``traducir'' qué está leyendo el modelo evaluado. Para ello se propone un algortimo que genera secuencias de ejemplos contrafactuales, modificando iterativamente una entrada, en dirección del gradiente de una función de pérdida. El algortimo propuesto es evaluado en problemas de modelamiento de lenguaje enmascarado y clasificación de comentarios tóxicos.
Los resultados obtenidos muestran que, en problemas de modelemiento de lenguaje enmascarado, se pueden generar exitosamente ejemplos contrafactuales guiados, pero en los de clasificación, los ejemplos sólo logran mantener la plausibilidad de los texto en la primera iteración del algortimo. También se comprobó que las perturbaciones hechas a los embeddings son casi inperceptibles espacialmente, con lo que las traducciones del intérprete dependen directamente de cómo el modelo procesa la información.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos Memoria para optar al grado de Ingeniero Civil en Computación
Patrocinador
Este trabajo ha sido parcialmente financiado por Instituto Milenio Fundamentos de los
Datos
Identifier
URI: https://repositorio.uchile.cl/handle/2250/205017
Collections
The following license files are associated with this item: