Contributions to bayesian machine learning via transport maps
Tesis
Open/ Download
Publication date
2020Metadata
Show full item record
Cómo citar
Fontbona Torres, Joaquín
Cómo citar
Contributions to bayesian machine learning via transport maps
Author
Professor Advisor
Abstract
The uncertainty is intrinsic in machine learning since it is present in data, models, parameters,
and prediction. The Bayesian approach to machine learning considers all the uncertainty
under the same point of view, and thanks to Bayes law, it applies the probabilistic reasoning
on all levels, including the inference of the parameters of statistical models. In this work, we
develop two lines of research, using results of transport maps on two Bayesian contexts, each of
them under a unifying approach of previous works from the literature. After an introduction
to the Bayesian paradigm for modelling, the first part of this work reviews Gaussian processes
(GP), to then propose generalisations of these Bayesian non-parametric models for regression.
The second part focuses on the study of novel estimators and practical methods for training
models from data. We develop both topics in a fundamental way, in the sense that we present
general models and techniques that can be applied, potentially, in any context of natural
science, social science or engineering. In each chapter, we provide illustrative numerical
examples, using synthetic and real-world datasets, in order to experimentally validate the
proposed models and methods, to finally confirm their applicability, accuracy and robustness.
On the first half of this thesis, we introduce GPs, non-parametric prior distributions over
functions, used as generative models with appealing modelling properties for Bayesian inference:
they can model non-linear relationships with noisy observations, have closed-form expressions
for training and inference, and are governed by interpretable hyperparameters. However, GP
models rely on Gaussianity, an assumption that is not true in several real-world scenarios, e.g.,
when observations are bounded or have extreme-value dependencies, a natural phenomenon
in physics, finance and social sciences. First, to model non-Gaussian data, we propose the
compositionally-warped GP, a computationally efficient non-Gaussian generative model. After
that, we extend this model via different layers based on transport maps, which allows us to
isolate marginals, correlations and copula of the induced stochastic process. Our proposal
encompasses GPs, warped GPs, Student-t processes and other models under a single unified
approach. We also provide analytical expressions and algorithms for training and inference of
the proposed models in the regression problem.
On the second half, we introduce a novel paradigm for Bayesian learning based on optimal
transport theory. Namely, we propose to use the Wasserstein barycenter of the posterior
law on models as model selection criterion, thus introducing an alternative to classical
choices like maximum a posteriori estimator or Bayesian model average. We exhibit general
conditions granting the existence and statistical consistency of this estimator, discuss some of
its broad and specific properties, and provide insight into its theoretical advantages. Finally,
we introduce a novel method which is ideally suited for the computation of our estimator,
explicitly presenting its implementation for expressive families of models. This method
corresponds to a stochastic gradient descent algorithm in the Wasserstein space, so it is of
general interest and applicability for the computation of populations Wasserstein barycenters. La incertidumbre es intrínseca en el aprendizaje automático ya que está presente en los
datos, modelos, parámetros y predicciones. El enfoque Bayesiano del aprendizaje automático
considera toda la incertidumbre bajo un mismo punto de vista y, gracias a la ley de Bayes, aplica
el razonamiento probabilístico en todos los niveles, incluida la inferencia de los parámetros de
los modelos estadísticos. En este trabajo desarrollamos dos líneas de investigación, utilizando
resultados de mapas de transporte en dos contextos Bayesianos, cada uno de ellos bajo un
enfoque unificador de trabajos anteriores en la literatura. Después de una introducción al
paradigma Bayesiano para el modelado, la primera parte de este trabajo revisa los procesos
Gaussianos (GP), para luego proponer generalizaciones de estos modelos Bayesianos no
paramétricos de regresión. La segunda parte se centra en el estudio de estimadores novedosos
y métodos prácticos para entrenar modelos a partir de datos. Desarrollamos ambos temas
de manera fundamental, en el sentido de que presentamos modelos y técnicas generales que
pueden aplicarse, potencialmente, en cualquier contexto de ciencias naturales, ciencias sociales
o ingeniería. En cada capítulo proporcionamos ejemplos numéricos ilustrativos, utilizando
conjuntos de datos sintéticos y del mundo real, para validar experimentalmente los modelos y
métodos propuestos, para finalmente confirmar su aplicabilidad, precisión y robustez.
En la primera mitad de esta tesis, presentamos GP, distribuciones a priori no paramétricas
sobre funciones, utilizadas como modelos generativos con propiedades de modelado atractivas
para la inferencia Bayesiana: pueden modelar relaciones no lineales con observaciones ruidosas,
tienen expresiones de forma cerrada para el entrenamiento e inferencia, y se rigen por
hiperparámetros interpretables. Sin embargo, los GP se basan en la Gaussianidad, una
suposición que no es cierta en varios escenarios del mundo real, por ejemplo, cuando las
observaciones están limitadas o tienen dependencias de valor extremo, un fenómeno natural en
física, finanzas y ciencias sociales. Primero, para modelar datos no Gaussianos, proponemos el
compositionally-warped GP, un modelo generativo no Gaussiano computacionalmente eficiente.
Después de eso, extendemos este modelo a través de diferentes capas basadas en mapas de
transporte, lo que nos permite aislar marginales, correlaciones y cópulas del proceso estocástico
modelado. Nuestra propuesta abarca GP, warped GP, procesos de Student-t y otros modelos
bajo un único enfoque unificado. También proporcionamos expresiones analíticas y algoritmos
para el entrenamiento e inferencia de los modelos de regresión propuestos.
En la segunda mitad, presentamos un paradigma novedoso para el aprendizaje Bayesiano
basado en la teoría de transporte óptimo. Es decir, proponemos utilizar el baricentro de
Wasserstein de la ley posterior sobre modelos como criterio de selección, introduciendo así
una alternativa a las elecciones clásicas como estimador máximo a posteriori o Bayesian
model average. Exhibimos condiciones generales que garantizan la existencia y la consistencia
estadística de este estimador, discutimos algunas de sus propiedades, y proporcionamos
información sobre sus ventajas teóricas. Finalmente, presentamos un método novedoso que es
ideal para el cálculo de nuestro estimador, presentando explícitamente su implementación
para familias expresivas de modelos. Este método corresponde a un algoritmo de descenso
de gradiente estocástico en el espacio de Wasserstein, por lo que es de interés general y de
aplicabilidad para el cálculo de baricentros de Wasserstein.
General note
Tesis para optar al grado de Doctor en Ciencias de la Ingeniería, Mención Modelación Matemática
Patrocinador
CMM Conicyt PIA AFB170001 y Conicyt-PCHA Doctorado Nacional 2016-21161789
Identifier
URI: https://repositorio.uchile.cl/handle/2250/173819
Collections
The following license files are associated with this item: