Characterization and completation of the customer data from a retail company using graph mining techniques
Professor Advisor
dc.contributor.advisor
Pino Urtubia, José
Author
dc.contributor.author
Videla Cavieres, Iván Fernando
Staff editor
dc.contributor.editor
Facultad de Ciencias Físicas y Matemàticas
Staff editor
dc.contributor.editor
Departamento de Ciencias de la Computación
Associate professor
dc.contributor.other
Baloian Tataryan, Nelson
Associate professor
dc.contributor.other
Mendoza Rocha, Marcelo
Admission date
dc.date.accessioned
2014-10-09T16:49:41Z
Available date
dc.date.available
2014-10-09T16:49:41Z
Publication date
dc.date.issued
2014
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/117085
General note
dc.description
Magíster en Ciencias, Mención Computación
General note
dc.description
Ingeneiro Civil en Computación
Abstract
dc.description.abstract
La industria del retail en Chile ha presentado un crecimiento sostenido en los últimos años. El aumento de la competencia ha obligado a hacer grandes esfuerzos de retención y fidelización. Las tecnologías de información han permitido registrar las interacciones del cliente con la empresa, sin embargo ha nacido una nueva problema ́tica, el manejo de grandes volúmenes de datos y su procesamiento. Este trabajo contó con 400 millones de registros transaccionales provenientes de dos cadenas de supermercados.
El enfoque utilizado por los retailers chilenos para agrupar los clientes es según montos de compra en un determinado periodo, no en la similitud de sus canastas de compra como propone la literatura. Al aplicar técnicas tradicionales, tanto para identificar patrones de compra similares (clustering) como para identificar canastas de compras (Market Basket Analysis), los resultados son de baja calidad, haciendo muy difícil la interpretación y no identificando grupos de productos relacionados que permitan clasificar a un cliente en base a sus compras históricas.
Dado que el enfoque clásico no funcionó, se decidió buscar otra forma de abordar el problema. Se utilizó un enfoque basado en redes sociales, entendiendo que la presencia simultánea de dos productos en una misma boleta implica una relaci ́on entre ellos. En la misma línea, se aplicaron algoritmos de detección de comunidades, permitiendo obtener grupos de productos que pueden ser etiquetados, clasificados e interpretados por los analistas. Luego, es posible clasificar a un cliente de acuerdo a sus compras previas.
La detección de comunidades fue abordada utilizando algoritmos que buscan comunidades traslapadas, lo que permite la presencia simultánea de un producto en más de un grupo. Esto considerando que es habitual que las personas adquieran en ciertos casos, los mismos productos aunque presenten comportamientos de compra distintos.
La calidad del modelo propuesto se comprueba, en hechos como la estabilidad de los grupos de productos generados a lo largo de diferentes periodos temporales. Además la modularidad obtenida es más alta que la encontrada generalmente en redes sociales. Este hecho demuestra la robustez de la estructura de comunidades.
Finalmente, dentro de las conclusiones se destaca que el nuevo modelo entrega grupos de productos fuertemente relacionados, los cuales son fácilmente interpretables por los analistas. Con la existencia de grupos de productos, se puede encontrar el grado de pertenencia de un cliente a dichos grupos, esto se traduce en una caracterización del cliente y además permite completar los datos existentes del mismo. La técnica propuesta permite manejar grandes volúmenes de datos, entregando resultados en tiempos acordes a las necesidades de la empresa.