Construcción y validación de una metodología de seguimiento para modelos de regresión logística

Este trabajo de título tiene por objetivo general construir, implementar y validar una metodología de seguimiento no supervisada, para detectar cambios significativos en la distribución de las variables, en modelos de regresión logística. El problema de seguimiento corresponde a detectar cambios en un modelo de minería de datos cuando éste es construido usando bases de datos no-estacionarias, es decir, conjuntos de información a los cuales constantemente se les están agregando nuevas observaciones. La consecuencia de estos cambios es que progresivamente el modelo perderá validez, por lo que deberá ser recalibrado en algún momento. El enfoque desarrollado para las metodologías propuestas es que cada parámetro de un modelo de regresión logística asociado a la variable x_i del modelo posee un intervalo de confianza donde se presume que se encuentra su valor real. El supuesto es que si la población cambia de tal manera que el nuevo parámetro estimado está fuera de este intervalo, entonces el modelo no es válido para esa nueva muestra. Se considera que el cuociente entre las medias es una buena medida del cambio entre dos muestras, solamente que no considera el efecto de la forma de la distribución. Es por ello que se corrige la media dividiéndola por la varianza muestral, obteniendo un coeficiente llamado ICV. Se plantean dos modelos a contrastar con el intervalo de cambio máximo: ICV-1 que corresponde al módulo de la diferencia del ICV de cada muestra e ICV-2 que corresponde al cuociente de dichos valores. Se construyó un modelo de regresión logística utilizando una base datos de comportamiento crediticio, cuyo error de predicción total fue de 23,3%. Con los parámetros de este modelo se construyeron los intervalos de cambio máximo para cada variable y se las perturbó de tres maneras distintas para proceder a la validación. Al aplicar los modelos propuestos, junto con otras metodologías de seguimiento, se concluye que ICV-1 presenta problemas debido a la forma en que se ha definido el intervalo de cambio máximo e ICV-2 tiene un buen rendimiento, comparable con el de Stability Index y la Distancia de Hellinger y considerablemente mejor que el test K-S y el test Chi-cuadrado.

Identifier

URI: https://repositorio.uchile.cl/handle/2250/111337

Collections

Tesis Pregrado