Baricentros débiles de Wasserstein: teoría y aplicaciones en aprendizaje de máquinas
Professor Advisor
dc.contributor.advisor
Tobar Henríquez, Felipe
Author
dc.contributor.author
Valencia Droguett, Tomás Ignacio
Associate professor
dc.contributor.other
Fontbona Torres, Joaquín
Associate professor
dc.contributor.other
Cazelles, Elsa
Admission date
dc.date.accessioned
2024-07-15T17:55:23Z
Available date
dc.date.available
2024-07-15T17:55:23Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/199580
Abstract
dc.description.abstract
En la matemática existe el área de transporte óptimo, la cual durante los últimos años
ha recibido bastante atención principalmente por parte de la comunidad de aprendizaje de
máquinas. Una de las herramientas que permite definir esta teoría es la noción de baricentro
de Wasserstein [1], que es la extensión natural del promedio de puntos al espacio de distribuciones de probabilidad. Recientemente, se propuso la teoría del transporte óptimo débil, la
cual consiste en una generalización del transporte óptimo [2]. Con base en esta formulación,
en [3] se introducen los baricentros débiles de una familia de distribuciones de probabilidad.
Se proporcionó un análisis teórico de este objeto, se discutió su interpretación a la luz del
orden convexo entre medidas de probabilidad y también se presentó un algoritmo iterativo
para calcular un baricentro débil para una familia finita de distribuciones de entrada. Sin
embargo, este baricentro es difícil de computar y no existen otras aproximaciones para este
cálculo, además de que la formulación matemática del problema de transporte óptimo débil
no presenta simetría, a diferencia del transporte óptimo clásico. El presente estudio diseña
un algoritmo eficiente para resolver el problema de baricentro débil en alta dimensionalidad,
junto con aprovechar la asimetría mencionada para introducir la noción de baricentro débil
reverso y extraer propiedades matemáticas de este objeto. En particular, se muestra que a
diferencia del baricentro débil, el cual extrae información geométrica común compartida por
todas las distribuciones de entrada, codificada como una variable aleatoria latente que las
subyace a todas ellas. El baricentro débil reverso posee la propiedad de que extrae toda la
información de las distribuciones de entrada, y genera que, bajo ciertas condiciones, sean variable latente para el. También se diseñó un algoritmo para computar este último baricentro
en el caso particular de distribuciones gaussianas unidimensionales. Además, se calcularon
los respectivos baricentros sobre distribuciones gaussianas unidimensionales y se realizaron
diferentes comparaciones entre estos tres baricentros, donde se ilustran los aspectos teóricos
de cada uno. Finalmente, se calculó el baricentro débil en el dataset MNIST de alta dimensionalidad y se realizaron comparaciones entre este baricentro y el de Wasserstein. En todos los
experimentos se da cuenta de las propiedades de variable latente que poseen estos baricentros
débiles.
es_ES
Patrocinador
dc.description.sponsorship
CMM ANID BASAL FB210005.
es_ES
Lenguage
dc.language.iso
es
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States