Modelos de Selección de Atributos para Support Vector Machines

Maldonado Alarcón, Sebastián Alejandro

Professor Advisor	dc.contributor.advisor	Weber Haas, Richard	es_CL
Author	dc.contributor.author	Maldonado Alarcón, Sebastián Alejandro	es_CL
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas	es_CL
Staff editor	dc.contributor.editor	Departamento de Ingeniería Industrial	es_CL
Associate professor	dc.contributor.other	Carrizosa P., Emilio
Associate professor	dc.contributor.other	Gouet Bañares, Raúl
Associate professor	dc.contributor.other	Montoya Moreira, Ricardo
Associate professor	dc.contributor.other	Soto A., Álvaro
Admission date	dc.date.accessioned	2012-09-12T18:11:56Z
Available date	dc.date.available	2012-09-12T18:11:56Z
Publication date	dc.date.issued	2011	es_CL
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/102533
General note	dc.description	Doctor de Sistemas de Ingeniería
Abstract	dc.description.abstract	Recientemente los datos se han incrementado en todas las áreas del conocimiento, tanto en el número de instancias como en el de atributos. Bases de datos actuales pueden contar con decenas e incluso cientos de miles de variables con un alto grado de información tanto irrelevante como redundante. Esta gran cantidad de datos causa serios problemas a muchos algoritmos de minería de datos en términos de escalabilidad y rendimiento. Dentro de las áreas de investigación en selección de atributos se incluyen el análisis de chips de ADN, procesamiento de documentos provenientes de internet y modelos de administración de riesgo en el sector financiero. El objetivo de esta tarea es triple: mejorar el desempeño predictivo de los modelos, implementar soluciones más rápidas y menos costosas, y proveer de un mejor entendimiento del proceso subyacente que generó los datos. Dentro de las técnicas de minería de datos, el método llamado Support Vector Machines (SVMs) ha ganado popularidad gracias a su capacidad de generalización frente a nuevos objetos y de construir complejas funciones no lineales. Estas características permiten obtener mejores resultados que otros métodos predictivos. Sin embargo, una limitación de este método es que no está diseñado para identificar los atributos importantes para construir la regla discriminante. El presente trabajo tiene como objetivo desarrollar técnicas que permitan incorporar la selección de atributos en la formulación de SVMs no lineal, aportando eficiencia y comprensibilidad al método. Se desarrollaron dos metodologías: un algoritmo wrapper (HO-SVM) que utiliza el número de errores en un conjunto de validación como medida para decidir qué atributo eliminar en cada iteración, y un método embedded (KP-SVM) que optimiza la forma de un kernel Gaussiano no isotrópico, penalizando la utilización de atributos en la función de clasificación. Los algoritmos propuestos fueron probados en bases de datos de de diversa dimensionalidad, que van desde decenas a miles de atributos, y en problemas reales de asignación de créditos para entidades financieras nacionales. De los resultados se obtiene que SVMs no lineal con kernel Gaussiano muestra un mejor desempeño que con las funciones de kernel lineal y polinomial. Asimismo, los métodos de selección de atributos propuestos permiten mantener o incluso mejorar el desempeño predictivo de SVMs no lineal, logrando además una reducción significativa en la utilización de atributos. Para las bases de mayor dimensionalidad se reduce de miles a decenas de atributos seleccionados, logrando un desempeño predictivo significativamente mejor que los enfoques alternativos de selección de atributos para SVMs. Se concluye que los enfoques presentados representan la alternativa más efectiva dentro de las estudiadas para resolver el problema de selección de atributos en modelos de aprendizaje computacional. Como trabajo futuro se propone adaptar las metodologías propuestas para problemas con desbalance de clases, donde se requiere una evaluación distinta del desempeño del modelo considerando costos por error de clasificación asimétricos, una problemática común en aplicaciones como detección de fuga y riesgo crediticio.
Lenguage	dc.language.iso	es	es_CL
Publisher	dc.publisher	Universidad de Chile	es_CL
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/
Keywords	dc.subject	Sistemas de Ingeniería	es_CL
Keywords	dc.subject	Minería de datos	es_CL
Keywords	dc.subject	Aprendizaje	es_CL
Keywords	dc.subject	Metodología	es_CL
Keywords	dc.subject	Selección de atributos	es_CL
Keywords	dc.subject	Support vector machines	es_CL
Título	dc.title	Modelos de Selección de Atributos para Support Vector Machines	es_CL
Document type	dc.type	Tesis

Files in this item

Name:: Modelo-de-selección-de-atribu ...
Size:: 406.4Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile