Publication:
Gaussian processes methods for nostationary regression

Loading...
Thumbnail Image
Identifiers
Publication date
2014-09
Defense date
2014-09-23
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Gaussian Processes (GPs) are a powerful nonparametric Bayesian tool for nonlinear regression. As it is common in most regression approaches, GPs models observations as the sum of some unknown (latent) function plus Gaussian noise. Unlike other regression methods, GPs proceed in a purely Bayesian fashion to infer the posterior distribution of the unknown function through the likelihood and a Gaussian prior distribution placed over this unknown function. One of the strengths of GPs is that they produce probabilistic predictions, i.e., average and dispersion values, in a natural way. On the other hand, they usually employ a reduced number of hyperparameters, that can be tuned with a simple continuous optimization of the evidence: This makes them resilient to overfitting. Unfortunately, GPs cannot be applied to large-scale data sets due to their O(N3) time scalability, limiting the scope of application to data sets with a few thousands samples (using present desktop computers), although sparse approximations allow to use GPs in bigger data sets. The standard GP regression is formulated under stationarity hypotheses: The noise power is assumed constant throughout the input space and the covariance of the prior distribution is typically modeled as dependent only on the difference between input samples. This stationary assumption can be too restrictive and unrealistic for many real-world applications. Pursuing nonstationarity, in this Thesis we propose a Divisive GP (DGP) model, where two GPs are combined to achieve amplitude nonstationarity and heteroscedastic regression. The posterior of the DGP model is analytically intractable, so that approximate inference techniques or Markov Chain Monte Carlo (MCMC) methods are needed to make inference on the model. One of the advantages of the DGP model is that the likelihood is log-concave, which leads to a unimodal posterior when combined with a GP prior. This favors the convergence of approximate inference algorithms as Expectation Propagation (EP) or the Laplace method. We first propose EP-DGP, an EP posterior approximation to make inference on the DGP model. The experimental results show the high quality of the EP posterior approximation compared to an MCMC implementation using Elliptical Slice Sampling (ESS) for the same model, but at a reduced cost. The experimental results on different (homoscedastic and heteroscedastic) data sets show the improvements of the proposed method compared with the state-of-the-art methods in heteroscedastic GP regression and the standard GP. However, the computational burden of EP-DGP is high compared to the standard GP or other similar variational approximations for heteroscedastic regression. We also propose to use the Laplace approximation for the DGP model. The characteristics of the likelihood make the posterior have quite a Gaussian shape, which allows that the Laplace approximation (L-DGP) provides accurate posterior approximations, as in the case of EP-DGP, but at a reduced cost. Finally, we have also applied the Laplace approximation to make inference on a GP model for volatility forecasting in financial time series, which is a direct application of heteroscedastic regression methods. The use of the Ornstein-Uhlenbeck covariance function, suitable to model the behavior of this kind of time series, allows the Laplace implementation to scale linearly with the number of samples. As in the case of L-DGP, the characteristics of the likelihood make the Laplace approximation an accurate inference procedure, but at a reduced computational load, compared to the MCMC method applied to the same volatility model. The experimental results corroborate the good performance of the Laplace method compared to other similar GP algorithms, reducing the computational burden, and showing better prediction capabilities than the commonly used Generalized AutoRegressive Conditional Heteroscedastic (GARCH) models in volatility forecasting.
Los Procesos Gaussianos (Gaussian Processes, GPs) son una herramienta Bayesiana no paramétrica potente para acometer problemas de regresión no lineal. Como es común para la mayoría de métodos de regresión, los GPs modelan las observaciones como la suma de una función (latente) desconocida y un ruido gaussiano. A diferencia de otras técnicas de regresión, los GPs proceden desde un punto de vista puramente Bayesiano, infiriendo la probabilidad a posteriori de la función desconocida a través de la verosimilitud y la distribución gaussiana que a priori se establece sobre dicha función. Una de las ventajas de los GPs es que proporcionan predicciones probabilísticas – es decir, valores promedio y de dispersión – de forma natural. Por otro lado, normalmente utilizan un número de hiperparámetros reducido, lo que los hace resistentes a problemas de sobreajuste, permitiendo a su vez seleccionar dichos hiperparámetros mediante una sencilla optimización continua de la evidencia. Desafortunadamente, los GPs no pueden ser utilizados para grandes conjuntos de datos, ya que escalan en el tiempo en la forma O(N3), limitando su ámbito de aplicación a conjuntos de datos con unos pocos miles de muestras de entrenamiento (utilizando ordenadores de sobremesa actuales), aunque existen aproximaciones dispersas que permiten utilizar los GPs en conjuntos de datos más grandes. El GP estándar para regresión se formula bajo hipótesis estacionarias: se considera que la potencia de ruido es constante e independiente de los datos de entrada y la función de covarianza de la distribución a priori típicamente depende de la diferencia entre las muestras de entrada. Estas suposiciones puede ser demasiado restrictivas y poco realistas para muchas aplicaciones reales. Buscando un modelado no estacionario, en esta Tesis proponemos un modelo GP divisivo (Divisive GP, DGP) en el que se combinan dos GPs para lograr no estacionariedad en amplitud y modelado de ruido heterocedástico. La probabilidad a posteriori del modelo divisivo no es tratable de forma analítica, lo que hace necesario proponer algoritmos de inferencia aproximada o métodos tipo Markov Chain Monte Carlo (MCMC) para poder hacer inferencia en dicho modelo. Una de las ventajas del modelo divisivo es que la verosimilitud es log-cóncava, lo que hace que la distribución a posteriori sea unimodal cuando se combina con una distribución a priori gaussiana. Esto favorece la convergencia de algoritmos de inferencia aproximada como Expectation Propagation (EP) o el método de Laplace. En primer lugar proponemos EP-DGP, que utiliza una aproximación EP a la distribución a posteriori en el modelo DGP. Los resultados experimentales muestran la buena calidad de dichas aproximaciones comparadas con una implementación MCMC aplicando el algoritmo Elliptical Slice Sampling (ESS) para el mismo modelo, aunque el coste computacional de la aproximación EP es considerablemente menor. Los resultados experimentales en distintas bases de datos – homocedásticas y heterocedásticas – muestran las mejoras del método propuesto con respecto a los métodos del estado del arte en regresión heterocedástica con GPs, así como al propio GP estándar para regresión. Sin embargo, la carga computacional del EP-DGP es alta comparada con el GP estándar y otras aproximaciones variacionales similares para regresión heterocedástica con GPs. Por este motivo, proponemos también utilizar el método de Laplace para hacer inferencia en el modelo DGP. Las características de la verosimilitud hacen que la distribución a posteriori tenga una forma bastante gaussiana, lo que permite que el método de Laplace proporcione unas aproximaciones a la distribución a posteriori tan precisas como las del EP-DGP, pero a un coste reducido. Finalmente, también hemos utilizado la aproximación de Laplace para hacer inferencia en un modelo GP para predicción de volatilidad en series temporales financieras, que resulta de aplicación directa para los métodos de regresión heterocedástica. La función de covarianza de Ornstein-Uhlenbeck modela de forma adecuada el comportamiento de este tipo de series financieras y permite que la implementación del método de Laplace escale linealmente con el número de muestras de entrenamiento. Como en el caso anterior, las características de la verosimilitud hacen que las aproximaciones del método de Laplace sean también precisas, en este caso, comparadas con las que proporcionan métodos MCMC aplicados so bre el mismo modelo, pero a un coste computacional menor. Los resultados experimentales corroboran las buenas prestaciones del método de Laplace propuesto comparado con otros algoritmos GP similares, reduciendo la carga computacional y proporcionando una capacidad de predicción superior a la de los modelos Generales AutoRegresivos Heteroced´asticos (Generalized AutoRegressive Heteroscedastic models, GARCH) comúnmente utilizados en tareas de predicción de volatilidad en el campo de la Econometría.
Description
Keywords
Gaussian processes, Nonstationary regression
Bibliographic citation
Collections