Show simple item record

Professor Advisordc.contributor.advisorWeber Haas, Richard
Authordc.contributor.authorCarvajal Cáceres, Ignacio Nicolás
Associate professordc.contributor.otherSaltos Atiencia, Ramiro
Associate professordc.contributor.otherSauré Valenzuela, Denis
Admission datedc.date.accessioned2024-10-29T18:48:36Z
Available datedc.date.available2024-10-29T18:48:36Z
Publication datedc.date.issued2024
Identifierdc.identifier.other10.58011/ypzt-da43
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/201762
Abstractdc.description.abstractEl clustering es una técnica esencial en el reconocimiento de patrones, la minería de datos y el descubrimiento de conocimiento. Un desafío significativo en el clustering dinámico es predecir los cambios en la estructura subyacente de los datos, como la segmentación futura de clientes. Este problema se complica especialmente cuando se trabaja con datos multimodales, ya que es necesario estudiar los cambios en la estructura de los datos a lo largo del tiempo. Este documento propone utilizar Gradientes de Política Determinística Profunda Multiagente (MADDPG) y el Modelo de Mezcla Gaussiana (GMM) para resolver el problema del clustering dinámico. El GMM se emplea para representar una mezcla de distribuciones de probabilidad, considerando los clusters (componentes) de GMM como agentes en un juego de Markov parcialmente observable. Los agentes se entrenan con MADDPG, una extensión del algoritmo DDPG diseñada para entornos multiagentes, que permite a los agentes aprender políticas descentralizadas y coordinarse entre sí. El objetivo principal de este trabajo es predecir los parámetros de GMM del próximo período utilizando la información del período actual. Durante el entrenamiento, cada agente observa los estados y acciones de todos los agentes y aprende un crítico centralizado para estimar el valor de la acción conjunta. En la fase de ejecución, cada agente utiliza solo sus observaciones locales para seleccionar acciones, buscando optimizar la log-verosimilitud obtenida con los parámetros predichos al clusterizar los datos en el próximo período. El documento demuestra que el enfoque propuesto puede predecir eficazmente los parámetros de GMM para períodos futuros bajo condiciones de movimientos lineales y estacionarios de los clusters, mejorando la capacidad de predecir la estructura subyacente de los datos en contextos dinámicos comparado con solo confiar en la clusterización del período actual.es_ES
Abstractdc.description.abstractClustering is an essential technique in pattern recognition, data mining, and knowledge discovery. A significant challenge in dynamic clustering is predicting changes in the underlying structure of the data, such as future customer segmentation. This problem is especially complex when dealing with multimodal data, as it is necessary to study changes in the data structure over time. This paper proposes using Multi-Agent Deep Deterministic Policy Gradients (MADDPG) and the Gaussian Mixture Model (GMM) to address the issue of dynamic clustering. GMM is employed to represent a mixture of probability distributions, considering the clusters (components) of GMM as agents in a partially observable Markov game. The agents are trained using MADDPG, an extension of the DDPG algorithm designed for multi-agent environments, which allows the agents to learn decentralized policies and coordinate with each other. The primary objective of this work is to predict the GMM parameters for the next period using information from the current period. During training, each agent observes the states and actions of all other agents and learns a centralized critic to estimate the value of the joint action. In the execution phase, each agent uses only its local observations to select actions, aiming to optimize the log-likelihood obtained with the predicted parameters when clustering the data in the next period. The paper demonstrates that the proposed approach can effectively predict GMM parameters for future periods under conditions of linear and stationary movements of the clusters, improving the ability to predict the underlying structure of the data in dynamic contexts compared to relying solely on the clustering of the current period.es_ES
Lenguagedc.language.isoenes_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleReinforcement learning applied to dynamic clusteringes_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoDepartamento de Ingeniería Industriales_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES
uchile.carrerauchile.carreraIngeniería Civil Industriales_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Gestión de Operacioneses_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al título de Ingeniero Civil Industrial


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States