Selección de características integrada en un modelo aditivo de regresión

Godoy Sánchez, Johnny

Professor Advisor	dc.contributor.advisor	Fontbona Torres, Joaquín
Author	dc.contributor.author	Godoy Sánchez, Johnny
Associate professor	dc.contributor.other	Silva Sánchez, Jorge
Associate professor	dc.contributor.other	Tobar Henríquez, Felipe
Admission date	dc.date.accessioned	2024-08-26T22:10:02Z
Available date	dc.date.available	2024-08-26T22:10:02Z
Publication date	dc.date.issued	2024
Identifier	dc.identifier.other	10.58011/z6wg-dv95
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/200553
Abstract	dc.description.abstract	En un mundo donde los modelos de aprendizaje automático se aplican en diversas áreas cruciales y de alto riesgo, desde medicina hasta finanzas, la transparencia algorítmica se vuelve esencial para comprender las decisiones automatizadas y asegurar que se puedan tomar con responsabilidad. Sin embargo, los algoritmos caja negra de alto rendimiento que dominan actualmente el panorama carecen de esta transparencia. En este contexto, los modelos aditivos han resurgido como una alternativa en el campo de la inteligencia artificial interpretable. Son modelos de regresión simples de entender que, cuando se combinan con técnicas modernas como los árboles potenciados por gradiente, ofrecen un rendimiento similar a los mejores modelos caja negra. Sin embargo, surge un desafío cuando los conjuntos de datos tienen un gran número de características o dimensiones, como suele ser el caso en aplicaciones contemporáneas de aprendizaje de máquinas: Los modelos aditivos a menudo proporcionan explicaciones extensas que dificultan la obtención de la transparencia deseada. Esta tesis afronta este desafío presentando un nuevo algoritmo de entrenamiento para modelos aditivos que integra selección de características, combinando las ideas de árboles potenciados por gradiente con el criterio de mínima redundancia y máxima relevancia. Esto permite obtener explicaciones más concisas sin comprometer el rendimiento ofrecido por los modelos de alta complejidad. Para construir una solución accesible para la comunidad de científicos de datos y expertos en inteligencia artificial, se desarrolló como una librería en Python, siguiendo la API de scikit-learn, una de las librerías más populares en el campo del aprendizaje automático. Se asegura la precisión y eficiencia de esta implementación utilizando una estructura de datos eficiente para la representación de un árbol, y un algoritmo especializado de programación dinámica para su ajuste. El trabajo también valida la efectividad del modelo propuesto a través de dos experimentos. Primero, se demuestra que el modelo logra un rendimiento de generalización comparable con otros modelos ampliamente utilizados, según su error en la validación cruzada en un repositorio masivo de diversos conjuntos de datos. Segundo, se verifica que el modelo efectivamente selecciona un conjunto de variables relevantes al entrenarlo en un conjunto de datos al cual se le introdujeron variables irrelevantes o redundantes, lo que confirma su capacidad para eliminar información inútil para la resolución del problema. Además, se crean dos experimentos exploratorios con el objetivo de mejorar el modelo. Primero, se comparan de tiempos de entrenamiento de un algoritmo ejecutado normalmente, contra uno cuyo entrenamiento se forzó a detener antes. Segundo, se crea una propuesta de hiperparámetros por defecto fáciles de recordar, que mantengan un buen desempeño relativo con respecto a los hiperparámetros óptimos. El enfoque innovador del algoritmo propuesto ofrece soluciones precisas a problemas de regresión críticos, brindando confianza a expertos y usuarios en la toma de decisiones respaldadas por modelos de aprendizaje automático, de una forma fácil de implementar para científicos de datos. Además, sienta las bases para futuras investigaciones en el campo del aprendizaje automático interpretable.	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	Selección de características integrada en un modelo aditivo de regresión	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	chb	es_ES
Department	uchile.departamento	Escuela de Postgrado y Educación Continua	es_ES
Department	uchile.departamento	Departamento de Ingeniería Matemática
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Ciencias de Datos	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al título de Ingeniero Civil Matemático

Files in this item

Name:: Seleccion-de-caracteristicas-i ...
Size:: 1.959Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States