El presente trabajo de memoria propone una metodología para la construcción de un modelo de predicción de fraude transaccional, el cual tiene como objetivo identificar aquellas transacciones que presentan mayor probabilidad de ser fraudulentas. Las transacciones son hechas con una tarjeta de crédito asociada a una empresa del área Retail (empresa dedicada a la venta al detalle).
El fraude en tarjetas de crédito es un problema serio, creciente, complejo y dinámico. El gran volumen de ventas de las empresas del área Retail, la diversificación de los comercios en los cuales participa y el rápido crecimiento de la popularidad de ventas online, hace que existan diversas formas en las que un cliente pueda verse afectado por fraude.
Los datos disponibles se encuentran en tres bases de datos de la empresa. El problema con estas bases es que las transacciones fraudulentas no se encuentran marcadas, éstas últimas se encuentran en otra base. Por falta de un identificador común en las bases, se tienen que marcar manualmente las transacciones fraudulentas.
Luego de marcar los casos fraudulentos, la solución propuesta corresponde a construir varios modelos de clasificación binaria, los que asignan a cada transacción una probabilidad de ser fraudulenta. Esta asignación se realizó sobre la base de la definición de un patrón característico mediante un conjunto de variables de entrada, siendo éstas definidas en conjunto con los expertos del negocio.
Para la construcción de los modelos se usan cuatro técnicas distintas: support vector machines, redes neuronales artificiales, árboles de decisión y regresión logística. Se consideran modelos aplicados en el total de las transacciones y también agrupando rubros específicos, para así medir cómo cambia la predicción al segmentar. En la construcción de los modelos se usaron distintas proporciones de transacciones normales y fraudulentas, con el objetivo de encontrar qué proporción es mejor para la detección.
Como conclusión general, modelos más complejos como support vector machines y redes neuronales artificiales tienen mejor rendimiento que modelos más sencillos como regresión logística. Cuando se disminuye la proporción de transacciones fraudulentas en la construcción de los modelos se obtiene una mejor predicción. Al segmentar por rubros específicos se obtienen aún mejores resultados, esto muestra que es mejor segmentar y tener varios modelos que uno solo para todas las transacciones.