Show simple item record

Professor Advisordc.contributor.advisorWeber Haas, Richardes_CL
Authordc.contributor.authorMaldonado Alarcón, Sebastián Alejandro es_CL
Staff editordc.contributor.editorFacultad de Ciencias Físicas y Matemáticases_CL
Staff editordc.contributor.editorDepartamento de Ingeniería Industriales_CL
Associate professordc.contributor.otherCarrizosa P., Emilio
Associate professordc.contributor.otherGouet Bañares, Raúl 
Associate professordc.contributor.otherMontoya Moreira, Ricardo 
Associate professordc.contributor.otherSoto A., Álvaro
Admission datedc.date.accessioned2012-09-12T18:11:56Z
Available datedc.date.available2012-09-12T18:11:56Z
Publication datedc.date.issued2011es_CL
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/102533
General notedc.descriptionDoctor de Sistemas de Ingeniería
Abstractdc.description.abstractRecientemente los datos se han incrementado en todas las áreas del conocimiento, tanto en el número de instancias como en el de atributos. Bases de datos actuales pueden contar con decenas e incluso cientos de miles de variables con un alto grado de información tanto irrelevante como redundante. Esta gran cantidad de datos causa serios problemas a muchos algoritmos de minería de datos en términos de escalabilidad y rendimiento. Dentro de las áreas de investigación en selección de atributos se incluyen el análisis de chips de ADN, procesamiento de documentos provenientes de internet y modelos de administración de riesgo en el sector financiero. El objetivo de esta tarea es triple: mejorar el desempeño predictivo de los modelos, implementar soluciones más rápidas y menos costosas, y proveer de un mejor entendimiento del proceso subyacente que generó los datos. Dentro de las técnicas de minería de datos, el método llamado Support Vector Machines (SVMs) ha ganado popularidad gracias a su capacidad de generalización frente a nuevos objetos y de construir complejas funciones no lineales. Estas características permiten obtener mejores resultados que otros métodos predictivos. Sin embargo, una limitación de este método es que no está diseñado para identificar los atributos importantes para construir la regla discriminante. El presente trabajo tiene como objetivo desarrollar técnicas que permitan incorporar la selección de atributos en la formulación de SVMs no lineal, aportando eficiencia y comprensibilidad al método. Se desarrollaron dos metodologías: un algoritmo wrapper (HO-SVM) que utiliza el número de errores en un conjunto de validación como medida para decidir qué atributo eliminar en cada iteración, y un método embedded (KP-SVM) que optimiza la forma de un kernel Gaussiano no isotrópico, penalizando la utilización de atributos en la función de clasificación. Los algoritmos propuestos fueron probados en bases de datos de de diversa dimensionalidad, que van desde decenas a miles de atributos, y en problemas reales de asignación de créditos para entidades financieras nacionales. De los resultados se obtiene que SVMs no lineal con kernel Gaussiano muestra un mejor desempeño que con las funciones de kernel lineal y polinomial. Asimismo, los métodos de selección de atributos propuestos permiten mantener o incluso mejorar el desempeño predictivo de SVMs no lineal, logrando además una reducción significativa en la utilización de atributos. Para las bases de mayor dimensionalidad se reduce de miles a decenas de atributos seleccionados, logrando un desempeño predictivo significativamente mejor que los enfoques alternativos de selección de atributos para SVMs. Se concluye que los enfoques presentados representan la alternativa más efectiva dentro de las estudiadas para resolver el problema de selección de atributos en modelos de aprendizaje computacional. Como trabajo futuro se propone adaptar las metodologías propuestas para problemas con desbalance de clases, donde se requiere una evaluación distinta del desempeño del modelo considerando costos por error de clasificación asimétricos, una problemática común en aplicaciones como detección de fuga y riesgo crediticio.
Lenguagedc.language.isoeses_CL
Publisherdc.publisherUniversidad de Chilees_CL
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/
Keywordsdc.subjectSistemas de Ingenieríaes_CL
Keywordsdc.subjectMinería de datoses_CL
Keywordsdc.subjectAprendizajees_CL
Keywordsdc.subjectMetodologíaes_CL
Keywordsdc.subjectSelección de atributoses_CL
Keywordsdc.subjectSupport vector machineses_CL
Títulodc.titleModelos de Selección de Atributos para Support Vector Machineses_CL
Document typedc.typeTesis


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile