Proyección de Datos Multidimensionales Utilizando Teoría de la Información

Vera Cadenas, Pablo Andrés

Professor Advisor	dc.contributor.advisor	Estévez Valencia, Pablo	es_CL
Author	dc.contributor.author	Vera Cadenas, Pablo Andrés	es_CL
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas	es_CL
Staff editor	dc.contributor.editor	Departamento de Ingeniería Eléctrica	es_CL
Associate professor	dc.contributor.other	Pérez Flores, Claudio
Associate professor	dc.contributor.other	Silva Sánchez, Jorge
Associate professor	dc.contributor.other	Zegers Fernández, Pablo
Admission date	dc.date.accessioned	2012-09-12T18:11:49Z
Available date	dc.date.available	2012-09-12T18:11:49Z
Publication date	dc.date.issued	2010	es_CL
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/102412
Abstract	dc.description.abstract	En el presente trabajo se desarrolló un método no supervisado de proyección y visualización de datos multidimensionales a espacios de baja dimensión, en especial a 2D. El modelo de proyección propuesto consiste en una matriz de transformación lineal y ortonormal entre los espacios de entrada y salida. Para la optimización de los parámetros se utilizaron como criterios de proyección medidas basadas en la Teoría de la Información, en particular la Información Mutua. Debido a la complejidad del cálculo de la Información Mutua utilizando la forma clásica de Shannon, se trabajó con medidas basadas en la entropía de Renyi, las que combinadas con un estimador de funciones de densidad de probabilidad, llamado ventana de Parzen, permitieron el cálculo de la Información Mutua Cuadrática directamente a partir de los ejemplos. El método es no paramétrico ya que no requiere información a priori sobre la distribución de los datos. Adicionalmente, para mejorar el desempeño se añadió un pre-procesamiento para los datos llamado Blanqueo, el cual transforma los datos linealmente de forma que las características de los mismos no tengan correlación y que la varianza sea unitaria. El método fue probado en cuatro bases de datos distintas con diversa complejidad y fue comparado con otros algoritmos como Análisis de Componentes Principales (PCA), Stochastic Neighbor Embedding (SNE) y Mapas de Sammon (NLM), utilizando como criterios de desempeño tanto medidas de preservación topológica como otras basadas en clustering. Los resultados mostraron que el método propuesto es capaz de proyectar datos de alta a baja dimensión manteniendo gran parte de la información de los mismos, en especial en términos de clustering. El algoritmo superó a PCA en todas las pruebas y obtuvo resultados comparables con SNE y NLM a pesar de que estos métodos son no-lineales. Se desarrolló además una caracterización del método para determinar aspectos como orden computacional y dependencia de parámetros. Por otro lado, se demostró la necesidad de desarrollar nuevas métricas para medir el desempeño de los algoritmos de proyección.
Lenguage	dc.language.iso	es	es_CL
Publisher	dc.publisher	Universidad de Chile	es_CL
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/
Keywords	dc.subject	Electricidad	es_CL
Keywords	dc.subject	Teoría de la información	es_CL
Keywords	dc.subject	Análisis de componentes principales	es_CL
Keywords	dc.subject	Procesamiento de imagen	es_CL
Keywords	dc.subject	Proyección multidimensional	es_CL
Título	dc.title	Proyección de Datos Multidimensionales Utilizando Teoría de la Información	es_CL
Document type	dc.type	Tesis

Files in this item

Name:: cf-vera_pc.pdf
Size:: 2.394Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile