Estrategias de selección de mini batches utilizando procesos puntuales determinantales para el entrenamiento de redes neuronales mediante descenso de gradiente estocástico
Professor Advisor
dc.contributor.advisor
Tobar Henríquez, Felipe
Author
dc.contributor.author
Moreno Cabañas, Nelson Bruno Andrés
Associate professor
dc.contributor.other
Remenik Zisis, Daniel
Associate professor
dc.contributor.other
Fontbona Torres, Joaquín
Admission date
dc.date.accessioned
2024-03-12T20:45:34Z
Available date
dc.date.available
2024-03-12T20:45:34Z
Publication date
dc.date.issued
2023
Identifier
dc.identifier.other
10.58011/wd30-ad68
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/197408
Abstract
dc.description.abstract
El aprendizaje profundo o Deep Learning es una de las ramas del aprendizaje de máquinas
que más desarrollo y mejoras ha tenido en las últimas décadas. Los constantes esfuerzos de
la comunidad de Machine Learning por mejorar las técnicas de entrenamiento han abierto al
paso a la utilización de herramientas cada vez más complejas y sofisticadas.
En linea con lo anterior, esta tesis propone la utilización de tres metodologías para el
entrenamiento de redes neuronales utilizando un proceso repulsivo conocido como Proceso
Puntual Determinantal (DPP) cuya función es la de permitir que los mini batch sampleados
en cada iteración del entrenamiento tengan la mayor diversidad posible según alguna métrica
de distancia. Esta métrica es definida como una distancia euclidiana aplicada sobre una
representación de baja dimensionalidad de los datos obtenida a partir del entrenamiento
previo de un Autoencoder o una red Oneshot.
La primera arquitectura denominada Fast DPP resuelve el problema del alto costo computacional
que requiere utilizar un DPP filtrando aquellos ejemplos poco relevantes. La segunda
arquitectura, Mixed DPP, combina el entrenamiento estándar (sampleo uniforme) con una
inicialización mediante Fast DPP. Finalmente, la tercera arquitectura plantea el entrenamiento
en paralelo de un Autoencoder necesario para la definición de la métrica y la red
encargada de resolver el problema principal.
Se prueban las arquitecturas en un problema de clasificación binaria con un dataset artificial
en dos dimensiones y uno de clasificación multiclase con Fashion MNIST. Los resultados
muestran que la red Fast DPP tiene un mejor rendimiento en los primeros 30 segundos de
entrenamiento que un método estándar (baseline) en el problema de clasificación multiclase y
la red Mixed DPP alcanza un rendimiento similar al método estándar pero en menor tiempo.
La importancia de este trabajo radica en la apertura de nuevas posibilidades de entrenamiento
con sampleo activo mediante un proceso repulsivo tan estudiado como los DPP y
además, aporta en el estudio de métricas de distancia en problemas de alta dimensionalidad
con un enfoque en el entrenamiento de redes neuronales.
es_ES
Patrocinador
dc.description.sponsorship
Fondecyt Regular No 1210606
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States
Estrategias de selección de mini batches utilizando procesos puntuales determinantales para el entrenamiento de redes neuronales mediante descenso de gradiente estocástico
es_ES
Document type
dc.type
Tesis
es_ES
dc.description.version
dc.description.version
Versión original del autor
es_ES
dcterms.accessRights
dcterms.accessRights
Acceso abierto
es_ES
Cataloguer
uchile.catalogador
gmm
es_ES
Department
uchile.departamento
Escuela de Postgrado y Educación Continua
es_ES
Department
uchile.departamento
Departamento de Ingeniería Matemática
Faculty
uchile.facultad
Facultad de Ciencias Físicas y Matemáticas
es_ES
uchile.titulacion
uchile.titulacion
Doble Titulación
es_ES
uchile.gradoacademico
uchile.gradoacademico
Magister
es_ES
uchile.notadetesis
uchile.notadetesis
Tesis para optar al grado de Magíster en Ciencia de Datos
es_ES
uchile.notadetesis
uchile.notadetesis
Memoria para optar al título de Ingeniero Civil Matemático