Contributions to the study of the neural tangent kernel regime from a mean field perspective
Tesis
Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Fontbona Torres, Joaquín
Cómo citar
Contributions to the study of the neural tangent kernel regime from a mean field perspective
Author
Professor Advisor
Abstract
El Aprendizaje de Máquinas, y en particular las redes neuronales, han existido en la comunidad científica desde la década de 1980. Sin embargo, han sido adoptadas como una práctica
común sólo en la última década, con la nueva disponibilidad de capacidad computacional. En
la última década, el aprendizaje de máquinas y especialmente el aprendizaje profundo han
visto muchos avances, alcanzando grandes hitos en tareas particularmente difíciles en visión
computacional, generación de audio, clasificación, salud, bioinformática y muchos otros campos.
Pese a que ha habido grandes logros en los últimos años por el uso de redes neuronales,
el por qué estas funcionan, y en particular, por qué generalizan bien pese a estar altamente
sobre parametrizadas, aún no es comprendido completamente (por ejemplo, Alexa-net de
Google s tiene alrededor de 108 parámetros). En este contexto, motivado por las aplicaciones de la Teoría de Probabilidad en Mecánica Estadística, una línea de investigación ha
propuesto estudiar el objeto matemático que surge cuándo el ancho de la red tiende a infinito.
Dado que las redes neuronales clásicas son claramente inestables en el límite cuando la
cantidad de neuronas tiene a infinito, se necesitan otras parametrizaciones para poder estudiar estos objetos matemáticos. Dos parametrizaciones han ganado especial popularidad: La
parametrización del NTK,y al parametrización de Campo Medio.
Ambas parametrizaciones han sido ampliamente estudiadas, pero en el caso del NTK, no
se han encontrado límites en términos de Ecuaciones en Derivadas Parciales (EDPs), que si
es el caso en las parametrizaciones de Campo Medio. Además, un fenómeno llamado Lazy
Training, que consiste en la distribución de los parámetros siendo muy similar a la distribución inicial, fue reportado por Chizat and Bach en 2018 para la parametrización del NTK.
En este trabajo, estudiamos el límite de la parametrización del NTK para redes poco profundas (con una capa escondida) entrenadas con descenso de gradiente estocástico usando
medidas empíricas. Con esto, encontramos EDPs límite que no han sido parte de la literatura.
Por otra parte, también se estudia el límite de la red cuando la cantidad de neuronas
tiende a infinito, para lo que se ocupan herramientas de transporte óptimo. También se
estudia el límite cuando el tiempo de entrenamiento es largo en este setting.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias de la Ingeniería, Mención Matemáticas Aplicadas Memoria para optar al título de Ingeniero Civil Matemático
Patrocinador
Proyecto FONDECYT 1201948 CMM ANID BASAL FB210005
Identifier
URI: https://repositorio.uchile.cl/handle/2250/194923
Collections
The following license files are associated with this item: