Proyección de Datos Multidimensionales Utilizando Teoría de la Información
Professor Advisor
dc.contributor.advisor
Estévez Valencia, Pablo
es_CL
Author
dc.contributor.author
Vera Cadenas, Pablo Andrés
es_CL
Staff editor
dc.contributor.editor
Facultad de Ciencias Físicas y Matemáticas
es_CL
Staff editor
dc.contributor.editor
Departamento de Ingeniería Eléctrica
es_CL
Associate professor
dc.contributor.other
Pérez Flores, Claudio
Associate professor
dc.contributor.other
Silva Sánchez, Jorge
Associate professor
dc.contributor.other
Zegers Fernández, Pablo
Admission date
dc.date.accessioned
2012-09-12T18:11:49Z
Available date
dc.date.available
2012-09-12T18:11:49Z
Publication date
dc.date.issued
2010
es_CL
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/102412
Abstract
dc.description.abstract
En el presente trabajo se desarrolló un método no supervisado de proyección y visualización de
datos multidimensionales a espacios de baja dimensión, en especial a 2D. El modelo de proyección
propuesto consiste en una matriz de transformación lineal y ortonormal entre los espacios de entrada
y salida. Para la optimización de los parámetros se utilizaron como criterios de proyección
medidas basadas en la Teoría de la Información, en particular la Información Mutua. Debido a la
complejidad del cálculo de la Información Mutua utilizando la forma clásica de Shannon, se trabajó
con medidas basadas en la entropía de Renyi, las que combinadas con un estimador de funciones
de densidad de probabilidad, llamado ventana de Parzen, permitieron el cálculo de la Información
Mutua Cuadrática directamente a partir de los ejemplos. El método es no paramétrico ya que no
requiere información a priori sobre la distribución de los datos. Adicionalmente, para mejorar el
desempeño se añadió un pre-procesamiento para los datos llamado Blanqueo, el cual transforma
los datos linealmente de forma que las características de los mismos no tengan correlación y que la
varianza sea unitaria.
El método fue probado en cuatro bases de datos distintas con diversa complejidad y fue comparado
con otros algoritmos como Análisis de Componentes Principales (PCA), Stochastic Neighbor
Embedding (SNE) y Mapas de Sammon (NLM), utilizando como criterios de desempeño tanto medidas
de preservación topológica como otras basadas en clustering. Los resultados mostraron que
el método propuesto es capaz de proyectar datos de alta a baja dimensión manteniendo gran parte
de la información de los mismos, en especial en términos de clustering. El algoritmo superó a PCA
en todas las pruebas y obtuvo resultados comparables con SNE y NLM a pesar de que estos métodos
son no-lineales. Se desarrolló además una caracterización del método para determinar aspectos
como orden computacional y dependencia de parámetros. Por otro lado, se demostró la necesidad
de desarrollar nuevas métricas para medir el desempeño de los algoritmos de proyección.