Abstract | dc.description.abstract | A la par del aumento de la complejidad de los modelos de procesamineto de lenguaje natural (NLP), en base a redes neuronales, y de su aplicación en distintos problemas, también ha crecido la necesidad de que estos modelos cumplan, no sólo con rendir en sus respectivas tareas, sino también con criterios como seguridad, robustez, privacidad, transparencia o equidad. Esto es debido en gran parte a que, por lo general, las acciones de los modelos no son interpretables y, por el mismo motivo, avanzar en el desarrollo de técnicas de explicabilidad de redes neuronales, ayuda a poder evaluar y mejorar el desempeño en dichos criterios.
Según estudios en psicología cognitiva, uno de los formatos a través del que mejor se explican relaciones causales, son los ejemplos contrafactuales. En NLP, un ejemplo contrafactual es un texto similar a otro, que se desea evaluar, pero que produce un resultado distinto en el modelo. Estos ejemplos resultan útiles para explicar una decisión particular, pero no mucho para entender el modelo en sí. Para obtener un mejor entendimiento del modelo, a partir de estas explicaciones, se propone crear contrafactuales de forma tal que muestren los cambios que más favorecen una respuesta predeterminada. A estos se los llama contrafactuales guiados.
El objetivo de esta tesis es probar que es posible generar ejemplos contrafactuales guiados, por medio de desplazar los embeddings de un texto de entrada, en la dirección que maximiza la probabilidad de una respuesta, y luego recuperar su significado en texto con una red auxiliar, denominada intérprete, que se encarga de ``traducir'' qué está leyendo el modelo evaluado. Para ello se propone un algortimo que genera secuencias de ejemplos contrafactuales, modificando iterativamente una entrada, en dirección del gradiente de una función de pérdida. El algortimo propuesto es evaluado en problemas de modelamiento de lenguaje enmascarado y clasificación de comentarios tóxicos.
Los resultados obtenidos muestran que, en problemas de modelemiento de lenguaje enmascarado, se pueden generar exitosamente ejemplos contrafactuales guiados, pero en los de clasificación, los ejemplos sólo logran mantener la plausibilidad de los texto en la primera iteración del algortimo. También se comprobó que las perturbaciones hechas a los embeddings son casi inperceptibles espacialmente, con lo que las traducciones del intérprete dependen directamente de cómo el modelo procesa la información.A la par del aumento de la complejidad de los modelos de procesamineto de lenguaje natural (NLP), en base a redes neuronales, y de su aplicación en distintos problemas, también ha crecido la necesidad de que estos modelos cumplan, no sólo con rendir en sus respectivas tareas, sino también con criterios como seguridad, robustez, privacidad, transparencia o equidad. Esto es debido en gran parte a que, por lo general, las acciones de los modelos no son interpretables y, por el mismo motivo, avanzar en el desarrollo de técnicas de explicabilidad de redes neuronales, ayuda a poder evaluar y mejorar el desempeño en dichos criterios.
Según estudios en psicología cognitiva, uno de los formatos a través del que mejor se explican relaciones causales, son los ejemplos contrafactuales. En NLP, un ejemplo contrafactual es un texto similar a otro, que se desea evaluar, pero que produce un resultado distinto en el modelo. Estos ejemplos resultan útiles para explicar una decisión particular, pero no mucho para entender el modelo en sí. Para obtener un mejor entendimiento del modelo, a partir de estas explicaciones, se propone crear contrafactuales de forma tal que muestren los cambios que más favorecen una respuesta predeterminada. A estos se los llama contrafactuales guiados.
El objetivo de esta tesis es probar que es posible generar ejemplos contrafactuales guiados, por medio de desplazar los embeddings de un texto de entrada, en la dirección que maximiza la probabilidad de una respuesta, y luego recuperar su significado en texto con una red auxiliar, denominada intérprete, que se encarga de ``traducir'' qué está leyendo el modelo evaluado. Para ello se propone un algortimo que genera secuencias de ejemplos contrafactuales, modificando iterativamente una entrada, en dirección del gradiente de una función de pérdida. El algortimo propuesto es evaluado en problemas de modelamiento de lenguaje enmascarado y clasificación de comentarios tóxicos.
Los resultados obtenidos muestran que, en problemas de modelemiento de lenguaje enmascarado, se pueden generar exitosamente ejemplos contrafactuales guiados, pero en los de clasificación, los ejemplos sólo logran mantener la plausibilidad de los texto en la primera iteración del algortimo. También se comprobó que las perturbaciones hechas a los embeddings son casi inperceptibles espacialmente, con lo que las traducciones del intérprete dependen directamente de cómo el modelo procesa la información. | es_ES |