Show simple item record

Professor Advisordc.contributor.advisorBravo Márquez, Felipe
Professor Advisordc.contributor.advisorPetrache, Mircea
Authordc.contributor.authorFarías Riquelme, Benjamín Ignacio
Associate professordc.contributor.otherAbeliuk Kimelman, Andrés
Admission datedc.date.accessioned2025-05-20T16:03:44Z
Available datedc.date.available2025-05-20T16:03:44Z
Publication datedc.date.issued2025
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/205017
Abstractdc.description.abstractA la par del aumento de la complejidad de los modelos de procesamineto de lenguaje natural (NLP), en base a redes neuronales, y de su aplicación en distintos problemas, también ha crecido la necesidad de que estos modelos cumplan, no sólo con rendir en sus respectivas tareas, sino también con criterios como seguridad, robustez, privacidad, transparencia o equidad. Esto es debido en gran parte a que, por lo general, las acciones de los modelos no son interpretables y, por el mismo motivo, avanzar en el desarrollo de técnicas de explicabilidad de redes neuronales, ayuda a poder evaluar y mejorar el desempeño en dichos criterios. Según estudios en psicología cognitiva, uno de los formatos a través del que mejor se explican relaciones causales, son los ejemplos contrafactuales. En NLP, un ejemplo contrafactual es un texto similar a otro, que se desea evaluar, pero que produce un resultado distinto en el modelo. Estos ejemplos resultan útiles para explicar una decisión particular, pero no mucho para entender el modelo en sí. Para obtener un mejor entendimiento del modelo, a partir de estas explicaciones, se propone crear contrafactuales de forma tal que muestren los cambios que más favorecen una respuesta predeterminada. A estos se los llama contrafactuales guiados. El objetivo de esta tesis es probar que es posible generar ejemplos contrafactuales guiados, por medio de desplazar los embeddings de un texto de entrada, en la dirección que maximiza la probabilidad de una respuesta, y luego recuperar su significado en texto con una red auxiliar, denominada intérprete, que se encarga de ``traducir'' qué está leyendo el modelo evaluado. Para ello se propone un algortimo que genera secuencias de ejemplos contrafactuales, modificando iterativamente una entrada, en dirección del gradiente de una función de pérdida. El algortimo propuesto es evaluado en problemas de modelamiento de lenguaje enmascarado y clasificación de comentarios tóxicos. Los resultados obtenidos muestran que, en problemas de modelemiento de lenguaje enmascarado, se pueden generar exitosamente ejemplos contrafactuales guiados, pero en los de clasificación, los ejemplos sólo logran mantener la plausibilidad de los texto en la primera iteración del algortimo. También se comprobó que las perturbaciones hechas a los embeddings son casi inperceptibles espacialmente, con lo que las traducciones del intérprete dependen directamente de cómo el modelo procesa la información.A la par del aumento de la complejidad de los modelos de procesamineto de lenguaje natural (NLP), en base a redes neuronales, y de su aplicación en distintos problemas, también ha crecido la necesidad de que estos modelos cumplan, no sólo con rendir en sus respectivas tareas, sino también con criterios como seguridad, robustez, privacidad, transparencia o equidad. Esto es debido en gran parte a que, por lo general, las acciones de los modelos no son interpretables y, por el mismo motivo, avanzar en el desarrollo de técnicas de explicabilidad de redes neuronales, ayuda a poder evaluar y mejorar el desempeño en dichos criterios. Según estudios en psicología cognitiva, uno de los formatos a través del que mejor se explican relaciones causales, son los ejemplos contrafactuales. En NLP, un ejemplo contrafactual es un texto similar a otro, que se desea evaluar, pero que produce un resultado distinto en el modelo. Estos ejemplos resultan útiles para explicar una decisión particular, pero no mucho para entender el modelo en sí. Para obtener un mejor entendimiento del modelo, a partir de estas explicaciones, se propone crear contrafactuales de forma tal que muestren los cambios que más favorecen una respuesta predeterminada. A estos se los llama contrafactuales guiados. El objetivo de esta tesis es probar que es posible generar ejemplos contrafactuales guiados, por medio de desplazar los embeddings de un texto de entrada, en la dirección que maximiza la probabilidad de una respuesta, y luego recuperar su significado en texto con una red auxiliar, denominada intérprete, que se encarga de ``traducir'' qué está leyendo el modelo evaluado. Para ello se propone un algortimo que genera secuencias de ejemplos contrafactuales, modificando iterativamente una entrada, en dirección del gradiente de una función de pérdida. El algortimo propuesto es evaluado en problemas de modelamiento de lenguaje enmascarado y clasificación de comentarios tóxicos. Los resultados obtenidos muestran que, en problemas de modelemiento de lenguaje enmascarado, se pueden generar exitosamente ejemplos contrafactuales guiados, pero en los de clasificación, los ejemplos sólo logran mantener la plausibilidad de los texto en la primera iteración del algortimo. También se comprobó que las perturbaciones hechas a los embeddings son casi inperceptibles espacialmente, con lo que las traducciones del intérprete dependen directamente de cómo el modelo procesa la información.es_ES
Patrocinadordc.description.sponsorshipEste trabajo ha sido parcialmente financiado por Instituto Milenio Fundamentos de los Datoses_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleGeneración de contrafactuales guiados por los sesgos de predicción en modelos de NLPes_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoEscuela de Postgrado y Educación Continuaes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computación
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Ciencia de Datoses_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al grado de Ingeniero Civil en Computación


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States