Reinforcement learning applied to dynamic clustering
Professor Advisor
Abstract
El clustering es una técnica esencial en el reconocimiento de patrones, la minería de datos y el descubrimiento de conocimiento. Un desafío significativo en el clustering dinámico es predecir los cambios en la estructura subyacente de los datos, como la segmentación futura de clientes. Este problema se complica especialmente cuando se trabaja con datos multimodales, ya que es necesario estudiar los cambios en la estructura de los datos a lo largo del tiempo. Este documento propone utilizar Gradientes de Política Determinística Profunda Multiagente (MADDPG) y el Modelo de Mezcla Gaussiana (GMM) para resolver el problema del clustering dinámico. El GMM se emplea para representar una mezcla de distribuciones de probabilidad, considerando los clusters (componentes) de GMM como agentes en un juego de Markov parcialmente observable. Los agentes se entrenan con MADDPG, una extensión del algoritmo DDPG diseñada para entornos multiagentes, que permite a los agentes aprender políticas descentralizadas y coordinarse entre sí. El objetivo principal de este trabajo es predecir los parámetros de GMM del próximo período utilizando la información del período actual. Durante el entrenamiento, cada agente observa los estados y acciones de todos los agentes y aprende un crítico centralizado para estimar el valor de la acción conjunta. En la fase de ejecución, cada agente utiliza solo sus observaciones locales para seleccionar acciones, buscando optimizar la log-verosimilitud obtenida con los parámetros predichos al clusterizar los datos en el próximo período. El documento demuestra que el enfoque propuesto puede predecir eficazmente los parámetros de GMM para períodos futuros bajo condiciones de movimientos lineales y estacionarios de los clusters, mejorando la capacidad de predecir la estructura subyacente de los datos en contextos dinámicos comparado con solo confiar en la clusterización del período actual. Clustering is an essential technique in pattern recognition, data mining, and knowledge
discovery. A significant challenge in dynamic clustering is predicting changes in the underlying
structure of the data, such as future customer segmentation. This problem is especially
complex when dealing with multimodal data, as it is necessary to study changes in the
data structure over time. This paper proposes using Multi-Agent Deep Deterministic Policy
Gradients (MADDPG) and the Gaussian Mixture Model (GMM) to address the issue of
dynamic clustering. GMM is employed to represent a mixture of probability distributions,
considering the clusters (components) of GMM as agents in a partially observable Markov
game. The agents are trained using MADDPG, an extension of the DDPG algorithm designed
for multi-agent environments, which allows the agents to learn decentralized policies and
coordinate with each other.
The primary objective of this work is to predict the GMM parameters for the next period
using information from the current period. During training, each agent observes the states
and actions of all other agents and learns a centralized critic to estimate the value of the joint
action. In the execution phase, each agent uses only its local observations to select actions,
aiming to optimize the log-likelihood obtained with the predicted parameters when clustering
the data in the next period.
The paper demonstrates that the proposed approach can effectively predict GMM
parameters for future periods under conditions of linear and stationary movements of the
clusters, improving the ability to predict the underlying structure of the data in dynamic
contexts compared to relying solely on the clustering of the current period.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Gestión de Operaciones Memoria para optar al título de Ingeniero Civil Industrial
Identifier
URI: https://repositorio.uchile.cl/handle/2250/201762
Collections
The following license files are associated with this item: