Deep Gaussian processes using expectation propagation and Monte Carlo methods
Author
Hernández Muñoz, GonzaloAdvisor
Hernández Lobato, DanielEntity
UAM. Departamento de Ingeniería InformáticaDate
2018-11Subjects
InformáticaEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
Machine learning can be de ned as the application of arti cial intelligence that provides
systems with the ability of learning and improve from experience. One of the main research
areas in this eld is supervised learning, in which an output variable is predicted from some
input variables.
These types of problems are divided into several stages. In the rst one, the system
is provided with the so-called training data. This data includes both input and (labeled)
output variables. After the training phase, the system is ready to make accurate predictions
about the values of the output variables that are not labeled. Depending on the type of
output variables, we can di erentiate between classi cation (categorical variables) and
regression (continuous variables) problems.
Gaussian processes are non-parametric machine learning models that present advantages
over other models. They provide not only a prediction about the output value, but
they also provide the uncertainty of such prediction. It is also not required to make assumptions
about the form of the process (function) that generated the data, is enough to
include the high-level information (smoothness, periodicity, ...) in the so-called covariance
function or kernel that jointly with the mean de ne the model. Although Gaussian processes
are robust to over- tting they are limited by the expressiveness of the covariance
function. There has been some work trying to extend this traditional model to other more
expressive variants, by for example considering more sophisticated covariance functions
or integrating the model in more complex probability structures. However, none of these
approaches make use of deep architectures.
Recently it has been shown that Gaussian processes can overcome these problems and be
used as individual units to construct deep networks giving rise to deep Gaussian processes.
These models maintain the advantages of single layer Gaussian processes but reduce the
hypotheses made about the data, yielding more
exible models. Deep Gaussian processes
have proven hard to train because exact Bayesian inference is not possible and approximate
inference techniques have to be used. Some models that represent the state of the art
on deep Gaussian processes research have used some of these techniques like variational
inference or approximate variants of the expectation propagation algorithm.
In this master's thesis, we present a new machine learning model for inference in deep
Gaussian processes models using an approximate inference technique based on Monte Carlo
methods and the expectation propagation algorithm. We demonstrate through extensive
experiments that our approach provides competitive results even when compared with some
state of the art models.
Finally, we show that our model scales well with bigger datasets and it is suitable to
use the proposed approach to solve Big Data problems. Furthermore, our model presents
di erent properties such as being able to capture noise that is dependent on the input
and modeling multimodal predictive distributions. Both of these properties, which are not
shared with other approximate inference methods, are analyzed in our experiments. El aprendizaje automático puede defi nirse como una aplicación de la inteligencia arti ficial
que proporciona a los sistemas la habilidad de aprender y mejorar a partir de la experiencia.
Una de las principales áreas de trabajo de este campo es el aprendizaje supervisado, en el
que se intenta predecir una variable de salida a partir de unas variables de entrada.
Este tipo de problemas se dividen en varias fases. En la primera se provee al sistema
de los denominados datos de entrenamiento. Estos datos incluyen tanto las variables de
entrada como las de salida (etiquetas). Tras la fase de entrenamiento el sistema está listo
para realizar predicciones precisas sobre las variables de salida a partir de las variables de
entrada sin etiquetar. Dependiendo del tipo de variables de salida del problema se puede
diferenciar entre problemas de clasi ficación (variables categóricas) o problemas de regresión
(variables continuas). Dentro del aprendizaje automático, los procesos Gaussianos son
modelos no paramétricos que presentan numerosas ventajas con respecto a otros modelos.
Al ser métodos bayesianos, proporcionan no solamente una predicción del valor de
la variable de salida sino también un grado de incertidumbre para la misma. Tampoco es
necesario realizar suposiciones sobre la forma del proceso (función) que generó los datos. Es
su ciente con incluir información de alto nivel (suavidad, periodicidad, etc.) en la llamada
función de covarianzas o kernel que, junto con la media, de nen el proceso Gaussiano.
A pesar de ser métodos robustos, resistentes al sobre-aprendizaje, los procesos Gaussianos
quedan limitados por la expresividad de la función de covarianzas. Por ello, se han intentado
extender estos modelos tradicionales a variantes más expresivas, por ejemplo, considerando
funciones de covarianza más so fisticadas o integrándolos en estructuras probabilísticas más
complejas. Sin embargo, ninguno de estos enfoques lleva a arquitecturas profundas.
Recientemente se ha mostrado que los procesos Gaussianos pueden superar estos problemas
y usarse como unidades individuales para construir redes profundas, dando como
resultado procesos Gaussianos profundos. Estos modelos mantienen las ventajas de los
procesos Gaussianos estándar, pero reducen las hipótesis realizadas sobre los datos, conduciendo
a modelos más flexibles. La contrapartida de estos modelos es que presentan
difi cultades a la hora de entrenarlos, pues la inferencia bayesiana exacta no es posible y
se han de usar técnicas de inferencia aproximada. Algunos modelos que representan el estado
de arte en la investigación sobre procesos Gaussianos profundos han intentado hacer
uso de las técnicas de inferencia aproximada, como por ejemplo, Inferencia Variacional, o
variantes aproximadas del algoritmo de propagación de esperanzas.
En este trabajo de fin de máster presentamos un nueva técnica para realizar inferencia
en procesos Gaussianos profundos mediante el uso de un método de inferencia aproximada
basado en métodos Montecarlo y el algoritmo de propagación de esperanzas. Demostramos
mediante exhaustivos experimentos que nuestro enfoque proporciona resultados competitivos
al nivel de otros modelos que representan el estado del arte.
Por ultimo mostramos que el modelo propuesto escala bien para conjuntos de datos
grandes y su uso es adecuado para la resolución de problemas de Big Data. Además, presenta
otras propiedades que analizamos en nuestros experimentos, como la posibilidad de
capturar ruido dependiente de los datos de entrada o el modelado de distributiones predictivas
multimodales. Estas propiedades no son observadas en otros métodos de inferencia
aproximada.
Files in this item
Google Scholar:Hernández Muñoz, Gonzalo
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.