Symmetries in overparametrized neural networks: a mean field view
Professor Advisor
dc.contributor.advisor
Fontbona Torres, Joaquín
Author
dc.contributor.author
Maass Martínez, Javier Esteban
Associate professor
dc.contributor.other
Tobar Henríquez, Felipe
Associate professor
dc.contributor.other
Remenik Zisis, Daniel
Associate professor
dc.contributor.other
Cortez Milan, Roberto
Admission date
dc.date.accessioned
2024-07-25T22:06:42Z
Available date
dc.date.available
2024-07-25T22:06:42Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.other
10.58011/yn4q-9s10
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/199744
Abstract
dc.description.abstract
Durante la última década, las Redes Neuronales Artificiales (NNs) han ganado gran popularidad por su éxito en aplicaciones prácticas como la visión computacional y el procesamiento de lenguaje natural; sin embargo, la comprensión teórica de estos modelos es aún escasa en general. Esta tesis pretende mejorar esta comprensión, estudiando el proceso de aprendizaje de las NNs para entender cómo estas aprovechan las simetrías de un problema para mejorar su rendimiento y poder de generalización.
Nuestro trabajo aborda dos temas principales: el análisis del límite de Campo Medio (MF) de las NNs, que provee una teoría para entender el entrenamiento de redes de ancho infinito (viéndolo como un proceso no lineal, más expresivo que otros regímenes sobreparametrizados de la literatura); y el uso de técnicas como Data Augmentation, Feature Averaging o las NNs Equivariantes para aprovechar las simetrías presentes en los datos de un problema.
El objetivo es comprender cómo se manifiestan las simetrías de los datos en el límite MF del entrenamiento de la NN:
¿Es también simétrico (en algún sentido) el proceso límite? ¿Cómo se ve la dinámica límite cuando se emplean técnicas para aprovechar las simetrías? ¿Se logran mejores velocidades de convergencia global? ¿Aparecen estrategias de aprovechamiento de simetrías significativamente mejores que otras? Nuestro trabajo proporciona las bases teóricas para responder a estas preguntas, y las aborda, en su mayoría, de forma efectiva.
La tesis se estructura en cuatro capítulos principales: una revisión bibliográfica tanto del límite MF de NNs sobreparametrizadas, como del estudio de simetrías en NNs mediante acciones de grupo en los Capítulos 2 y 3; seguido por nuestras contribuciones principales en los Capítulos 4 y 5. Nuestros aportes incluyen la formalización de la noción de simetría en el contexto de NNs sobreparametrizadas (permitiendo caracterizar las NNs equivariantes en el contexto MF), la exploración de propiedades de Transporte Óptimo para medidas invariantes (y concentradas en subespacios), la adaptación de técnicas tradicionales de aprovechamiento de simetrías al contexto MF, y el estudio exhaustivo de las propiedades de funcionales simétricos, sus minimizadores y sus flujos de gradiente de Wasserstein (WGFs). En particular, se demuestra que las funciones invariantes tienen minimizadores invariantes y producen WGFs con trayectorias invariantes cuando se inicializan correctamente.
Patrocinador
dc.description.sponsorship
CMM ANID BASAL FB210005
es_ES
Lenguage
dc.language.iso
en
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States