Mejorando la equidad en algoritmos de aprendizaje automático usando un enfoque de transporte óptimo
Professor Advisor
dc.contributor.advisor
Tobar Henríquez, Felipe
Author
dc.contributor.author
Bergasa Sariego, Camila Andreas
Associate professor
dc.contributor.other
Goic Figueroa, Marcel
Associate professor
dc.contributor.other
Radovic Sendra, Darinka
Admission date
dc.date.accessioned
2025-03-12T14:11:21Z
Available date
dc.date.available
2025-03-12T14:11:21Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/203484
Abstract
dc.description.abstract
El aumento en la utilización de métodos predictivos plantea la siguiente inquietud respecto de la equidad: ¿cómo garantizamos que estos métodos, entrenados con datos reales, no reproducen los sesgos sociales existentes? Cuando los conjuntos de datos empleados para el entrenamiento contienen sesgos injustos, existe el riesgo de que estos se perpetúen en los modelos predictivos. Abordar este desafío es fundamental, ya que la replicación de sesgos en sistemas automatizados puede perpetuar desigualdades y discriminar a grupos considerados vulnerables. Se busca mediante este trabajo de tesis investigar estrategias que ayuden a la mitigación de estos sesgos y promuevan la equidad en el uso de modelos predictivos.
En ese contexto, el objetivo de este trabajo de tesis es aplicar un marco metodológico basado en la teoría del transporte óptimo para mejorar la equidad en al implementar algoritmos de clasificación, con un enfoque específico de mitigación de sesgos de género en conjuntos de datos de censos. La simple eliminación de las variables que pueden ser fuente de trato injusto no es suficiente, ya que el modelo puede reconstruirlas a partir de otras variables y posteriormente usarlas en las predicciones.
Una forma de abordar este problema es generando una distorsión del conjunto de datos, en esta línea, el artículo "Obtaining Fairness using Optimal Transport Theory" propone una solución inspirada en la teoría del transporte óptimo para generar esta distorsión. El artículo plantea que dicha técnica elimina la capacidad del modelo de identificar y de luego usar estos sesgos sensibles, mientras busca conservar el rendimiento del modelo. A esta técnica se le llama reparación de los datos.
Después de introducir el marco teórico y el estado del arte asociados al uso de teoría del transporte óptimo para imponer equidad en algoritmos de clasificación, se explica la metodología empleada para realizar la reparación de los datos con sus respectivos resultados. Primero, se repararon los datos usando el método de reparación total, el cual distorsiona todo el conjunto de datos de entrada para eliminar el sesgo asociado a las variables sensibles. Luego, se evalúan dos métodos de reparación parcial: la reparación geométrica que mediante un peso 𝜆�� modera el grado de reparación deseado para los datos y posteriormente se utiliza la reparación aleatoria, donde el peso 𝜆�� no es 𝑆�� si no que está dado por una distribución Bernoulli de parámetro 𝜆��.
En paralelo, se realiza una evaluación de los modelos sin reparación de datos, para ver si efectivamente la inclusión de metodologías de reparación de los datos es una forma efectiva de eliminar el sesgo en los algoritmos de aprendizaje automático. Dentro de los principales hallazgos se muestra que los métodos de reparación parciales son más efectivos para reducir el impacto de los sesgos de género en los modelos predictivos. Además, la comparación con modelos sin reparación de datos confirmó que la implementación de estas metodologías de reparación son útiles para lograr una mayor equidad en las predicciones.
es_ES
Patrocinador
dc.description.sponsorship
Este trabajo ha sido parcialmente financiado por:
GOOGLE Y FONDECYT - REGULAR 1210606
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States