Abstract | dc.description.abstract | La empresa Correos de Chile es una empresa estatal y autónoma, con presencia en todo el país, dedicada al servicio de correspondencia y al mercado de paquetería nacional e internacional. En los últimos años ha estado en constante cambio debido al comercio electrónico que se expande y exige dar un salto para fortalecer sus datos de Clientes, en una industria altamente competitiva. Los problemas detectados, se fundan en los servicios ofrecidos, los cuales no tienen una calidad adecuada en la data, debiéndose al poco manejo de la información, ya sea, el Rut, Email, Teléfono, Etc. lo cual repercute en la contactabilidad de ellos.
El objetivo del presente trabajo es la implementación de técnicas de distancia y similitud entre cadenas de textos, además de procesos de Machine Learning, que permitan la clasificación e identificación de Clientes, para poder entregar un mejor servicio en la cadena logística, desde la admisión hasta la entrega final de envíos. En el marco teórico se describe detalladamente la situación actual de la Empresa, destacándose la poca integración entre los sistemas con que opera. Además de una investigación bibliográfica de herramientas relacionadas, las métricas y sus validaciones, que nos ayudarán a analizar mejor los resultados.
En el desarrollo del trabajo, se realizó la definición de las fuentes de datos, en particular la identificación, limpieza e integración de los datos. Luego se procedió con la exploración de los datos para determinar los tipos de problemas más frecuentes en la identificación de Clientes. Se realizaron cálculos basado en métodos de distancia y similitud. Además, el uso de algoritmos de aprendizaje automático supervisado, en particular el modelo Random Forest para clasificación.
Con una muestra correspondiente a un año de datos de entrega en una ciudad, se elaboró una línea base de identificación de Clientes basada exclusivamente en la búsqueda exacta del Nombre, llamada “Algoritmo JOIN” que obtuvo un 60% de éxito en la identificación de Clientes. A partir de los resultados y análisis, se pudo observar que el algoritmo propuesto “Algoritmo Clasificador”, basado en Random Forest, obtuvo un 84% de éxito de identificación de Clientes, mientras que el máximo teórico de identificación de clientes “Algoritmo Oráculo” obtuvo un 92%. (8% corresponde a clientes nuevos).
Se pudo concluir que la aplicación del “Algoritmo Clasificador” cumplió con el objetivo planteado, mostrando cómo aumentar significativamente el éxito en la identificación de Clientes. A futuro, el rendimiento se podría incluso aumentar incorporando más variables al modelo, tales como, el Email y Teléfono. | es_ES |