Una metodología para enfrentar el dinamismo de atributos en clustering
Tesis
Publication date
2017Metadata
Show full item record
Cómo citar
Weber Haas, Richard
Cómo citar
Una metodología para enfrentar el dinamismo de atributos en clustering
Author
Professor Advisor
Abstract
En este trabajo se desarrollar una metodología para enfrentar el problema
de clustering cuando alguno de los atributos se encuentra incompleto y se
va completando en forma dinámica. Y se implementa dicha metodología en
un modelo particular. El modelo implementado en este trabajo se basa en el
modelo de projected clustering (Proclus) desarrollado por Aggarwal et al. en
1999.
Al problema de dinamismo se le agregan las siguientes restricciones: La imposibilidad
de imputar los valores faltantes (los que todavía no llegan) al igual
que la imposibilidad de marginalizar las las con dichos valores faltantes. Estas
restricciones se imponen ya que de lo contrario el problema se puede resolver
en fácilmente de forma estática y/o tiene soluciones dinámicas conocidas.
Se modificó el modelo de proyected clustering para considerar las restricciones
impuestas al igual que implementar el dinamismo buscado. Para evaluar
el modelo se generaron datos de forma sintética (95000 filas), con diferentes
instancias en las que se buscan generar distintos escenarios donde la estructura
de los clusters cambia a medida que los nuevos datos llegan. La generación
sintética permitió evaluar los resultados y observar la evolución en la detección
de las dimensiones y los clusters.
Dado el modelo base escogido dicha modificación manifiesta alguna de sus
mismas limitaciones, como es el caso de necesitar un número elevado de dimensiones.
Los resultados entregados por la implementación del modelo fueron satisfactorios.
Encontrando las soluciones esperadas después de un número razonable
de iteraciones y realizado las operaciones en un tiempo menor que la aplicación
estática del modelo tras la llegada de cada lote de datos. De igual forma se
generó una medida para analizar y/o detectar los cambios en la estructura de
los clusters a medida que llegan los datos de la nueva columna.
Finalmente, en relación a los objetivos planteados en este trabajo, se puede
concluir que el modelo desarrollado logra cumplir con los objetivos planteados,
logrando desarrollar un modelo y metodológica que enfrente en forma efectiva
el problema antes descrito al igual que el aplicarlo a datos simulados y analizar
dichos resultados.
General note
Magíster en Gestión de Operaciones. Ingeniero Civil Industrial
Identifier
URI: https://repositorio.uchile.cl/handle/2250/147135
Collections
The following license files are associated with this item: