Generación de contrafactuales guiados por los sesgos de predicción en modelos de NLP

Farías Riquelme, Benjamín Ignacio

Professor Advisor	dc.contributor.advisor	Bravo Márquez, Felipe
Professor Advisor	dc.contributor.advisor	Petrache, Mircea
Author	dc.contributor.author	Farías Riquelme, Benjamín Ignacio
Associate professor	dc.contributor.other	Abeliuk Kimelman, Andrés
Admission date	dc.date.accessioned	2025-05-20T16:03:44Z
Available date	dc.date.available	2025-05-20T16:03:44Z
Publication date	dc.date.issued	2025
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/205017
Abstract	dc.description.abstract	A la par del aumento de la complejidad de los modelos de procesamineto de lenguaje natural (NLP), en base a redes neuronales, y de su aplicación en distintos problemas, también ha crecido la necesidad de que estos modelos cumplan, no sólo con rendir en sus respectivas tareas, sino también con criterios como seguridad, robustez, privacidad, transparencia o equidad. Esto es debido en gran parte a que, por lo general, las acciones de los modelos no son interpretables y, por el mismo motivo, avanzar en el desarrollo de técnicas de explicabilidad de redes neuronales, ayuda a poder evaluar y mejorar el desempeño en dichos criterios. Según estudios en psicología cognitiva, uno de los formatos a través del que mejor se explican relaciones causales, son los ejemplos contrafactuales. En NLP, un ejemplo contrafactual es un texto similar a otro, que se desea evaluar, pero que produce un resultado distinto en el modelo. Estos ejemplos resultan útiles para explicar una decisión particular, pero no mucho para entender el modelo en sí. Para obtener un mejor entendimiento del modelo, a partir de estas explicaciones, se propone crear contrafactuales de forma tal que muestren los cambios que más favorecen una respuesta predeterminada. A estos se los llama contrafactuales guiados. El objetivo de esta tesis es probar que es posible generar ejemplos contrafactuales guiados, por medio de desplazar los embeddings de un texto de entrada, en la dirección que maximiza la probabilidad de una respuesta, y luego recuperar su significado en texto con una red auxiliar, denominada intérprete, que se encarga de ``traducir'' qué está leyendo el modelo evaluado. Para ello se propone un algortimo que genera secuencias de ejemplos contrafactuales, modificando iterativamente una entrada, en dirección del gradiente de una función de pérdida. El algortimo propuesto es evaluado en problemas de modelamiento de lenguaje enmascarado y clasificación de comentarios tóxicos. Los resultados obtenidos muestran que, en problemas de modelemiento de lenguaje enmascarado, se pueden generar exitosamente ejemplos contrafactuales guiados, pero en los de clasificación, los ejemplos sólo logran mantener la plausibilidad de los texto en la primera iteración del algortimo. También se comprobó que las perturbaciones hechas a los embeddings son casi inperceptibles espacialmente, con lo que las traducciones del intérprete dependen directamente de cómo el modelo procesa la información.A la par del aumento de la complejidad de los modelos de procesamineto de lenguaje natural (NLP), en base a redes neuronales, y de su aplicación en distintos problemas, también ha crecido la necesidad de que estos modelos cumplan, no sólo con rendir en sus respectivas tareas, sino también con criterios como seguridad, robustez, privacidad, transparencia o equidad. Esto es debido en gran parte a que, por lo general, las acciones de los modelos no son interpretables y, por el mismo motivo, avanzar en el desarrollo de técnicas de explicabilidad de redes neuronales, ayuda a poder evaluar y mejorar el desempeño en dichos criterios. Según estudios en psicología cognitiva, uno de los formatos a través del que mejor se explican relaciones causales, son los ejemplos contrafactuales. En NLP, un ejemplo contrafactual es un texto similar a otro, que se desea evaluar, pero que produce un resultado distinto en el modelo. Estos ejemplos resultan útiles para explicar una decisión particular, pero no mucho para entender el modelo en sí. Para obtener un mejor entendimiento del modelo, a partir de estas explicaciones, se propone crear contrafactuales de forma tal que muestren los cambios que más favorecen una respuesta predeterminada. A estos se los llama contrafactuales guiados. El objetivo de esta tesis es probar que es posible generar ejemplos contrafactuales guiados, por medio de desplazar los embeddings de un texto de entrada, en la dirección que maximiza la probabilidad de una respuesta, y luego recuperar su significado en texto con una red auxiliar, denominada intérprete, que se encarga de ``traducir'' qué está leyendo el modelo evaluado. Para ello se propone un algortimo que genera secuencias de ejemplos contrafactuales, modificando iterativamente una entrada, en dirección del gradiente de una función de pérdida. El algortimo propuesto es evaluado en problemas de modelamiento de lenguaje enmascarado y clasificación de comentarios tóxicos. Los resultados obtenidos muestran que, en problemas de modelemiento de lenguaje enmascarado, se pueden generar exitosamente ejemplos contrafactuales guiados, pero en los de clasificación, los ejemplos sólo logran mantener la plausibilidad de los texto en la primera iteración del algortimo. También se comprobó que las perturbaciones hechas a los embeddings son casi inperceptibles espacialmente, con lo que las traducciones del intérprete dependen directamente de cómo el modelo procesa la información.	es_ES
Patrocinador	dc.description.sponsorship	Este trabajo ha sido parcialmente financiado por Instituto Milenio Fundamentos de los Datos	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	Generación de contrafactuales guiados por los sesgos de predicción en modelos de NLP	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	chb	es_ES
Department	uchile.departamento	Escuela de Postgrado y Educación Continua	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Ciencia de Datos	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al grado de Ingeniero Civil en Computación

Files in this item

Name:: Generacion-de-contrafactuales- ...
Size:: 4.136Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States