Deep Gaussian processes using expectation propagation and Monte Carlo methods

Machine learning can be de ned as the application of arti cial intelligence that provides systems with the ability of learning and improve from experience. One of the main research areas in this eld is supervised learning, in which an output variable is predicted from some input variables. These types of problems are divided into several stages. In the rst one, the system is provided with the so-called training data. This data includes both input and (labeled) output variables. After the training phase, the system is ready to make accurate predictions about the values of the output variables that are not labeled. Depending on the type of output variables, we can di erentiate between classi cation (categorical variables) and regression (continuous variables) problems. Gaussian processes are non-parametric machine learning models that present advantages over other models. They provide not only a prediction about the output value, but they also provide the uncertainty of such prediction. It is also not required to make assumptions about the form of the process (function) that generated the data, is enough to include the high-level information (smoothness, periodicity, ...) in the so-called covariance function or kernel that jointly with the mean de ne the model. Although Gaussian processes are robust to over- tting they are limited by the expressiveness of the covariance function. There has been some work trying to extend this traditional model to other more expressive variants, by for example considering more sophisticated covariance functions or integrating the model in more complex probability structures. However, none of these approaches make use of deep architectures. Recently it has been shown that Gaussian processes can overcome these problems and be used as individual units to construct deep networks giving rise to deep Gaussian processes. These models maintain the advantages of single layer Gaussian processes but reduce the hypotheses made about the data, yielding more exible models. Deep Gaussian processes have proven hard to train because exact Bayesian inference is not possible and approximate inference techniques have to be used. Some models that represent the state of the art on deep Gaussian processes research have used some of these techniques like variational inference or approximate variants of the expectation propagation algorithm. In this master's thesis, we present a new machine learning model for inference in deep Gaussian processes models using an approximate inference technique based on Monte Carlo methods and the expectation propagation algorithm. We demonstrate through extensive experiments that our approach provides competitive results even when compared with some state of the art models. Finally, we show that our model scales well with bigger datasets and it is suitable to use the proposed approach to solve Big Data problems. Furthermore, our model presents di erent properties such as being able to capture noise that is dependent on the input and modeling multimodal predictive distributions. Both of these properties, which are not shared with other approximate inference methods, are analyzed in our experiments.

El aprendizaje automático puede defi nirse como una aplicación de la inteligencia arti ficial que proporciona a los sistemas la habilidad de aprender y mejorar a partir de la experiencia. Una de las principales áreas de trabajo de este campo es el aprendizaje supervisado, en el que se intenta predecir una variable de salida a partir de unas variables de entrada. Este tipo de problemas se dividen en varias fases. En la primera se provee al sistema de los denominados datos de entrenamiento. Estos datos incluyen tanto las variables de entrada como las de salida (etiquetas). Tras la fase de entrenamiento el sistema está listo para realizar predicciones precisas sobre las variables de salida a partir de las variables de entrada sin etiquetar. Dependiendo del tipo de variables de salida del problema se puede diferenciar entre problemas de clasi ficación (variables categóricas) o problemas de regresión (variables continuas). Dentro del aprendizaje automático, los procesos Gaussianos son modelos no paramétricos que presentan numerosas ventajas con respecto a otros modelos. Al ser métodos bayesianos, proporcionan no solamente una predicción del valor de la variable de salida sino también un grado de incertidumbre para la misma. Tampoco es necesario realizar suposiciones sobre la forma del proceso (función) que generó los datos. Es su ciente con incluir información de alto nivel (suavidad, periodicidad, etc.) en la llamada función de covarianzas o kernel que, junto con la media, de nen el proceso Gaussiano. A pesar de ser métodos robustos, resistentes al sobre-aprendizaje, los procesos Gaussianos quedan limitados por la expresividad de la función de covarianzas. Por ello, se han intentado extender estos modelos tradicionales a variantes más expresivas, por ejemplo, considerando funciones de covarianza más so fisticadas o integrándolos en estructuras probabilísticas más complejas. Sin embargo, ninguno de estos enfoques lleva a arquitecturas profundas. Recientemente se ha mostrado que los procesos Gaussianos pueden superar estos problemas y usarse como unidades individuales para construir redes profundas, dando como resultado procesos Gaussianos profundos. Estos modelos mantienen las ventajas de los procesos Gaussianos estándar, pero reducen las hipótesis realizadas sobre los datos, conduciendo a modelos más flexibles. La contrapartida de estos modelos es que presentan difi cultades a la hora de entrenarlos, pues la inferencia bayesiana exacta no es posible y se han de usar técnicas de inferencia aproximada. Algunos modelos que representan el estado de arte en la investigación sobre procesos Gaussianos profundos han intentado hacer uso de las técnicas de inferencia aproximada, como por ejemplo, Inferencia Variacional, o variantes aproximadas del algoritmo de propagación de esperanzas. En este trabajo de fin de máster presentamos un nueva técnica para realizar inferencia en procesos Gaussianos profundos mediante el uso de un método de inferencia aproximada basado en métodos Montecarlo y el algoritmo de propagación de esperanzas. Demostramos mediante exhaustivos experimentos que nuestro enfoque proporciona resultados competitivos al nivel de otros modelos que representan el estado del arte. Por ultimo mostramos que el modelo propuesto escala bien para conjuntos de datos grandes y su uso es adecuado para la resolución de problemas de Big Data. Además, presenta otras propiedades que analizamos en nuestros experimentos, como la posibilidad de capturar ruido dependiente de los datos de entrada o el modelado de distributiones predictivas multimodales. Estas propiedades no son observadas en otros métodos de inferencia aproximada.

Show full item record