Network representation learning for credit scoring
Author
Professor Advisor
Abstract
personas alcanzar sus metas como adquirir vivienda, acceder a atención médica y obtener
educación. Además, brinda a los emprendedores y empresas el capital necesario para iniciar o
expandir operaciones, creando empleos y fomentando el crecimiento económico. Es necesario
contar con mecanismos para medir el riesgo de incumplimiento crediticio, ya que ayudan
mantener a la estabilidad del sistema financiero y protegen a los prestatarios de préstamos
impagables, asegurando que no enfrenten riesgos financieros innecesarios. La investigación en
credit scoring busca mejorar la discriminación de los modelos mediante mejores algoritmos
e incorporando datos alternativos como redes o grafos. Estos datos capturan interacciones
familiares, sociales y económicas de los individuos y ha demostrado ser especialmente útil
con prestatarios con historial crediticio limitado o inexistente. Esta tesis explora el valor
de integrar datos de grafos en modelos de credit scoring, con tres objetivos específicos, cada
uno vinculado a una publicación diferente. El primer objetivo se centra en el uso de network
representation learning en modelos de credit scoring. Se presenta un framework que combina
atributos generados manualmente, graph embeddings y atributos obtenidos de redes neuronales
de grafos. El estudio valida el uso de datos de redes en préstamos corporativos y de
consumo, y revela que el impacto de la información de grafos varía según el prestatario, ya
sean personas o empresas. Este es el primer estudio que considera el comportamiento crediticio
de todo un país utilizando diversas relaciones sociales y económicas. Nuestros resultados
resaltan el valor de los datos de redes para abordar los desafíos que enfrentan particularmente
para las empresas con historial crediticio limitado o nulo, facilitando su inclusión en
el sistema financiero. El segundo objetivo busca comprender el impacto de los datos de redes
en el desempeño de los modelos a medida que el comportamiento de pago adquiere relevancia.
Este trabajo desafía la división actual del proceso de gestión de riesgo de crédito al
examinar etapas intermedias entre application credit scoring y behavioral credit scoring. Al
centrarnos en el prestatario en lugar del proceso comercial, encontramos información valiosa
sobre la dinámica del desempeño de los modelos a medida que evoluciona el historial crediticio.
Además, investigamos la influencia de los atributos de redes y observamos que su valor
decrece en presencia de atributos de comportamiento. En nuestro tercer objetivo, presentamos
una metodología para entrenar un modelo en datos sintéticos y luego aplicarlo a datos
reales. Los resultados muestran que es posible entrenar un modelo con datos sintéticos que
funcione bien en situaciones reales. Sin embargo, observamos que al aumentar el número de
atributos, disminuye la calidad de los datos sintéticos. Además, identificamos un costo en el
desempeño asociado con trabajar en un entorno que preserva la privacidad. Este costo es una
reducción del poder predictivo, que en nuestro estudio fue de un 3% en el área bajo la curva
ROC y un 6% en el estadístico de Kolmogorov-Smirnov. Los hallazgos de esta tesis aportan
a una comprensión integral de los modelos de credit scoring, destacando la importancia de
considerar los datos de redes y las oportunidades para la investigación de behavioral credit
scoring mediante el aumento de datos de entrenamiento a partir de datos sintéticos.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Doctor en Sistemas de Ingeniería
Patrocinador
ANID, Beca FOLIO: 21190345
Identifier
URI: https://repositorio.uchile.cl/handle/2250/198115
Collections
The following license files are associated with this item: