Una metodología para enfrentar el dinamismo de atributos en clustering
Professor Advisor
dc.contributor.advisor
Weber Haas, Richard
Author
dc.contributor.author
Barrera Aylwin, Sergio Benito
Associate professor
dc.contributor.other
Jiménez Molina, Ángel
Associate professor
dc.contributor.other
Maldonado Alarcón, Sebastián
Admission date
dc.date.accessioned
2018-04-03T20:41:27Z
Available date
dc.date.available
2018-04-03T20:41:27Z
Publication date
dc.date.issued
2017
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/147135
General note
dc.description
Magíster en Gestión de Operaciones. Ingeniero Civil Industrial
es_ES
Abstract
dc.description.abstract
En este trabajo se desarrollar una metodología para enfrentar el problema
de clustering cuando alguno de los atributos se encuentra incompleto y se
va completando en forma dinámica. Y se implementa dicha metodología en
un modelo particular. El modelo implementado en este trabajo se basa en el
modelo de projected clustering (Proclus) desarrollado por Aggarwal et al. en
1999.
Al problema de dinamismo se le agregan las siguientes restricciones: La imposibilidad
de imputar los valores faltantes (los que todavía no llegan) al igual
que la imposibilidad de marginalizar las las con dichos valores faltantes. Estas
restricciones se imponen ya que de lo contrario el problema se puede resolver
en fácilmente de forma estática y/o tiene soluciones dinámicas conocidas.
Se modificó el modelo de proyected clustering para considerar las restricciones
impuestas al igual que implementar el dinamismo buscado. Para evaluar
el modelo se generaron datos de forma sintética (95000 filas), con diferentes
instancias en las que se buscan generar distintos escenarios donde la estructura
de los clusters cambia a medida que los nuevos datos llegan. La generación
sintética permitió evaluar los resultados y observar la evolución en la detección
de las dimensiones y los clusters.
Dado el modelo base escogido dicha modificación manifiesta alguna de sus
mismas limitaciones, como es el caso de necesitar un número elevado de dimensiones.
Los resultados entregados por la implementación del modelo fueron satisfactorios.
Encontrando las soluciones esperadas después de un número razonable
de iteraciones y realizado las operaciones en un tiempo menor que la aplicación
estática del modelo tras la llegada de cada lote de datos. De igual forma se
generó una medida para analizar y/o detectar los cambios en la estructura de
los clusters a medida que llegan los datos de la nueva columna.
Finalmente, en relación a los objetivos planteados en este trabajo, se puede
concluir que el modelo desarrollado logra cumplir con los objetivos planteados,
logrando desarrollar un modelo y metodológica que enfrente en forma efectiva
el problema antes descrito al igual que el aplicarlo a datos simulados y analizar
dichos resultados.