Show simple item record

Professor Advisordc.contributor.advisorMarín Vicuña, Pablo
Authordc.contributor.authorPereira Bizama, Nicole 
Staff editordc.contributor.editorFacultad de Ciencias Físicas y Matemáticas
Staff editordc.contributor.editorDepartamento de Ingeniería Industrial
Associate professordc.contributor.otherPuente Chandia, Alejandra
Associate professordc.contributor.otherAburto Lafourcade, Luis
Admission datedc.date.accessioned2014-10-13T14:09:50Z
Available datedc.date.available2014-10-13T14:09:50Z
Publication datedc.date.issued2014
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/117125
General notedc.descriptionMemoria para optar al título de Ingeniera Civil Industrial
Abstractdc.description.abstractLa industria de distribución eléctrica en Chile sufre anualmente pérdidas, solo en el año 2012 la empresa en estudio registró pérdidas por más de 6 mil millones de pesos ya sea por robo o fallas en los equipos de medición, por lo cual existe un gran interés de parte de estas en buscar soluciones para mitigar esta problemática. El presente trabajo tiene como objetivo la creación de modelos de minería de datos que logren identificar aquellos consumidores que poseen una alta propensión al hurto de electricidad. Para esto, se utilizó la información histórica disponible de los clientes desde enero de 2012 a marzo de 2014, tales como consumo mensual, inspecciones previas, cortes de suministro, entre otras fuentes. La información fue separada en dos bases de datos de acuerdo a si un cliente posee o no algún registro de inspección durante el periodo de estudio. Esta división se debe a que un cliente inspeccionado ya posee un filtro previo de inspección y a diferencia de un cliente no inspeccionado, se tiene la certeza de si ha cometido fraude o no. Con la data de clientes inspeccionados, se construyeron tres modelos de clasificación: regresión logística, árbol de decisión y random forest. Además, debido a que se tiene una data desbalanceada con un 2.2% de casos fraude, se realizó de forma paralela un modelo de regresión logística ponderado que obtuvo resultados similares al modelo sin ponderar concluyendo que el desbalanceo de clases no afecta el problema. Utilizando como métrica de evaluación una curva de ganancia, el modelo de random forest obtuvo los mejores resultados capturando un 39% del fraude en el primer decil de clientes versus un 35% alcanzado por el modelo de regresión. En cuanto al tiempo de ejecución, el modelo random forest tardo más de un día en su construcción mientras que el modelo de regresión y árbol de decisión tardaron entre 2 y 3 minutos. Debido a la simpleza en la interpretación de sus resultados y a su breve tiempo de ejecución se escoge el modelo de regresión logística (sin ponderar) para generar la probabilidad de fraude de cada cliente, el cual al ser aplicado a la data de clientes no inspeccionados logra una tasa esperada de fraude de un 8.6%, cifra que supera al 2.2% capturado en la realidad y que además se traduciría en una recuperación promedio mensual de más de $MM 7 si se realizasen la cantidad de inspecciones sugeridas. De forma complementaria, con la data de clientes no inspeccionados, se construyó un modelo de clustering cuyo objetivo es agrupar clientes con similares características e identificar casos anómalos o más alejados de su grupo. Para establecer un punto de comparación entre los resultados obtenidos, se aplica el modelo de regresión al listado de casos anómalos, obteniendo una tasa esperada de fraude de un 3.1%. Finalmente, como lineamiento futuro se espera la incorporación de otras fuentes de información que se cree serán de gran aporte en la detección de fraude energético, tales como información demográfica más detallada de los clientes y un análisis económico más preciso que permita mejores estimaciones de los beneficios a obtener.en_US
Lenguagedc.language.isoesen_US
Publisherdc.publisherUniversidad de Chileen_US
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectConsumo de energía eléctrica - Aspectos económicosen_US
Keywordsdc.subjectEnergía eléctrica - Aspectos económicosen_US
Keywordsdc.subjectAnálisis de regresiónen_US
Keywordsdc.subjectRandom foresten_US
Títulodc.titleIdentificación de clientes con patrones de consumo eléctrico fraudulentoen_US
Document typedc.typeTesis


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile