Estrategias de selección de mini batches utilizando procesos puntuales determinantales para el entrenamiento de redes neuronales mediante descenso de gradiente estocástico
Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Tobar Henríquez, Felipe
Cómo citar
Estrategias de selección de mini batches utilizando procesos puntuales determinantales para el entrenamiento de redes neuronales mediante descenso de gradiente estocástico
Professor Advisor
Abstract
El aprendizaje profundo o Deep Learning es una de las ramas del aprendizaje de máquinas
que más desarrollo y mejoras ha tenido en las últimas décadas. Los constantes esfuerzos de
la comunidad de Machine Learning por mejorar las técnicas de entrenamiento han abierto al
paso a la utilización de herramientas cada vez más complejas y sofisticadas.
En linea con lo anterior, esta tesis propone la utilización de tres metodologías para el
entrenamiento de redes neuronales utilizando un proceso repulsivo conocido como Proceso
Puntual Determinantal (DPP) cuya función es la de permitir que los mini batch sampleados
en cada iteración del entrenamiento tengan la mayor diversidad posible según alguna métrica
de distancia. Esta métrica es definida como una distancia euclidiana aplicada sobre una
representación de baja dimensionalidad de los datos obtenida a partir del entrenamiento
previo de un Autoencoder o una red Oneshot.
La primera arquitectura denominada Fast DPP resuelve el problema del alto costo computacional
que requiere utilizar un DPP filtrando aquellos ejemplos poco relevantes. La segunda
arquitectura, Mixed DPP, combina el entrenamiento estándar (sampleo uniforme) con una
inicialización mediante Fast DPP. Finalmente, la tercera arquitectura plantea el entrenamiento
en paralelo de un Autoencoder necesario para la definición de la métrica y la red
encargada de resolver el problema principal.
Se prueban las arquitecturas en un problema de clasificación binaria con un dataset artificial
en dos dimensiones y uno de clasificación multiclase con Fashion MNIST. Los resultados
muestran que la red Fast DPP tiene un mejor rendimiento en los primeros 30 segundos de
entrenamiento que un método estándar (baseline) en el problema de clasificación multiclase y
la red Mixed DPP alcanza un rendimiento similar al método estándar pero en menor tiempo.
La importancia de este trabajo radica en la apertura de nuevas posibilidades de entrenamiento
con sampleo activo mediante un proceso repulsivo tan estudiado como los DPP y
además, aporta en el estudio de métricas de distancia en problemas de alta dimensionalidad
con un enfoque en el entrenamiento de redes neuronales.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos Memoria para optar al título de Ingeniero Civil Matemático
Patrocinador
Fondecyt Regular No 1210606
Collections
The following license files are associated with this item: