Symmetries in overparametrized neural networks: a mean field view
Tesis

Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Fontbona Torres, Joaquín
Cómo citar
Symmetries in overparametrized neural networks: a mean field view
Author
Professor Advisor
Abstract
Durante la última década, las Redes Neuronales Artificiales (NNs) han ganado gran popularidad por su éxito en aplicaciones prácticas como la visión computacional y el procesamiento de lenguaje natural; sin embargo, la comprensión teórica de estos modelos es aún escasa en general. Esta tesis pretende mejorar esta comprensión, estudiando el proceso de aprendizaje de las NNs para entender cómo estas aprovechan las simetrías de un problema para mejorar su rendimiento y poder de generalización.
Nuestro trabajo aborda dos temas principales: el análisis del límite de Campo Medio (MF) de las NNs, que provee una teoría para entender el entrenamiento de redes de ancho infinito (viéndolo como un proceso no lineal, más expresivo que otros regímenes sobreparametrizados de la literatura); y el uso de técnicas como Data Augmentation, Feature Averaging o las NNs Equivariantes para aprovechar las simetrías presentes en los datos de un problema.
El objetivo es comprender cómo se manifiestan las simetrías de los datos en el límite MF del entrenamiento de la NN:
¿Es también simétrico (en algún sentido) el proceso límite? ¿Cómo se ve la dinámica límite cuando se emplean técnicas para aprovechar las simetrías? ¿Se logran mejores velocidades de convergencia global? ¿Aparecen estrategias de aprovechamiento de simetrías significativamente mejores que otras? Nuestro trabajo proporciona las bases teóricas para responder a estas preguntas, y las aborda, en su mayoría, de forma efectiva.
La tesis se estructura en cuatro capítulos principales: una revisión bibliográfica tanto del límite MF de NNs sobreparametrizadas, como del estudio de simetrías en NNs mediante acciones de grupo en los Capítulos 2 y 3; seguido por nuestras contribuciones principales en los Capítulos 4 y 5. Nuestros aportes incluyen la formalización de la noción de simetría en el contexto de NNs sobreparametrizadas (permitiendo caracterizar las NNs equivariantes en el contexto MF), la exploración de propiedades de Transporte Óptimo para medidas invariantes (y concentradas en subespacios), la adaptación de técnicas tradicionales de aprovechamiento de simetrías al contexto MF, y el estudio exhaustivo de las propiedades de funcionales simétricos, sus minimizadores y sus flujos de gradiente de Wasserstein (WGFs). En particular, se demuestra que las funciones invariantes tienen minimizadores invariantes y producen WGFs con trayectorias invariantes cuando se inicializan correctamente.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias de la Ingeniería, Mención Matemáticas Aplicadas Memoria para optar al título de Ingeniero Civil Matemático
Patrocinador
CMM ANID BASAL FB210005
Collections
The following license files are associated with this item: