Desarrollo de un modelo predictivo para detectar casos de fraude interno en una institución bancaria
Professor Advisor
dc.contributor.advisor
Aburto Lafourcade, Luis
Author
dc.contributor.author
García Jurado, Diego Ignacio
Associate professor
dc.contributor.other
Ríos Pérez, Sebastián
Associate professor
dc.contributor.other
Peirotén Álvarez, Vicente
Admission date
dc.date.accessioned
2017-04-21T13:55:43Z
Available date
dc.date.available
2017-04-21T13:55:43Z
Publication date
dc.date.issued
2016
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/143695
General note
dc.description
Ingeniero Civil Industrial
es_ES
Abstract
dc.description.abstract
El presente trabajo desarrolla metodologías de minería de datos y analítica para, a partir de datos transaccionales de una institución bancaria nacional, generar un modelo predictivo que sea capaz de detectar sospechosos de la comisión de fraude interno. Es decir, fraude cometido por empleados de la misma institución.
El banco posee 11.723 empleados, cerca de 3,6 millones de clientes y más de 500 sucursales, lo que genera alrededor de 21 millones de transacciones diarias. Debido a que se cuenta exclusivamente con 5 registros de fraude, se opta por abordar el problema desde una óptica de modelos no supervisados, que permiten extraer conocimiento de los datos sin tener información a priori de ellos.
Se utilizan tres modelos para generar con cada uno una lista de sospechosos de haber cometido fraude interno, ya sea por semejanza con los fraudes, o por presentar un comportamiento que se desvía del comportamiento común del resto de los datos (outlier). Primero se utilizan medidas de distancia para encontrar los vecinos más cercanos a cada uno de los registros de fraude, luego se implementa el algoritmo Local Outlier Factor (LOF) que es capaz de identificar outliers a partir de la búsqueda de diferencias significativas entre la densidad de un dato y la de sus vecinos. Posteriormente se usa Análisis de Componentes Principales (PCA), que sirve para reducir la dimensionalidad de los datos generando combinaciones lineales de las variables, para ver la ubicación topológica de los registros de fraudes y seleccionar sospechosos que se encuentren en su entorno. Finalmente se consolida una lista con los sospechosos entregados por los tres criterios, por medio de majority voting, considerando exclusivamente los que son considerados sospechosos por al menos 2. Este conjunto de metodologías genera un modelo con un lift de 61,18.
Así se obtiene una lista de 74 usuarios sospechosos que presentan una media de transacciones diarias muy por debajo del resto de los datos, especialmente en las variables consulta de datos básicos de la cuenta y localización de personas. Además de presentar un tiempo promedio entre transacciones inferior al resto de los datos.