A general framework for prediction in generalized additive models

Thumbnail Image
Publication date
Defense date
Journal Title
Journal ISSN
Volume Title
Google Scholar
Research Projects
Organizational Units
Journal Issue
Smoothing techniques have become one of the most popular modelling approaches in the unidimensional and multidimensional setting. However, out-of-sample prediction in the context of smoothing models is still an open problem that can significantly widen the use of these models in many areas of knowledge. The objective of this thesis is to propose a general framework for prediction in penalized regression, particularly in the P-splines context. To that end, Chapter 1 includes a review of the different proposals available in the literature, and results useful and necessary along the document, the formulation of a P-spline model and its reparameterization as a mixed model. In Chapter 2, we generalize the approach given by Currie et al. (2004) to predict with any regression basis and quadratic penalty. For the particular case of penalties based on differences between adjacent coefficients, we reparameterize the extended P-spline model as a mixed model and we prove that the fit remains the same as the result we obtain only fitting the data and show the crucial role of the penalty order, since it determines the shape of the prediction. Moreover, we adapt available methods in contexts such as mixed models (Gilmour et al. 2004) or global optimization (Sacks et al. 1989) to predict in the context of penalized regression and prove their equivalence for the particular case of Psplines. An extensive section of examples illustrates the application of the methodology. We use three real datasets with particular characteristics: one of them on aboveground biomass allow us to show that prediction can also be performed to the left of the data; other of them, on monthly sulphur dioxide levels, illustrates how prediction can take into account the temporal trends and seasonal effects by using the smooth modulation model based on P-splines suggested by Eilers et al. (2008); and other, on yearly sea level, shows that prediction can also be carried out in the case of correlated errors. We also introduce the concept of “memory of a P-spline” as a tool to know how much of the known information we use to predict new values. In the third chapter, we propose a general framework for prediction in multidimensional smoothing, we extend the proposal of Currie et al. (2004) to predict when more than one covariate is extended. The extension of the prediction method to the multidimensional case is not straightforward in the sense that, in this context, the fit changes when the fit and the prediction are carried out simultaneously. To overcome this problem we propose an easy but elegant solution, based on Lagrange multipliers. The first part of the chapter is dedicated to show how out-of-sample predictions can be carried out in the context of multidimensional P-splines and the properties satisfied, under certain conditions, by the coefficients that determine the prediction. We also propose the use of restrictions to maintain the fit, and in general, to incorporate any known information about the prediction. The second part of the chapter is dedicated to extend the methodology to the smooth mixed model framework. It is known that when a P-spline model is reparameterized as a mixed model, the structure of the coefficients is lost, that is, they are not ordered according to the position of the knots. This fact is not relevant when we fit the data, but if we predict and impose restrictions over the coefficients, we need to differentiate between the coefficients that determine the fit and the coefficients that determine the prediction. In order to do that, we define a particular transformation matrix that preserves the original model matrices. The prediction method and the use of restrictions is illustrated with one real data example on log mortality rates of US male population. We show how to solve the crossover problem of adjacent ages when mortality tables are forecasted and compare the results with the well-known method developed in Delwarde et al. (2007). The research in Chapter 4, is motivated by the need to extend the prediction methodology in the multidimensional case to more flexible models, the so-called Smooth-ANOVA models, which allow us to include interaction terms that can be decomposed as a sum of several smooth functions. The construction of these models through B-splines basis suffer from identifiability problems. There are several alternatives to solve this problem, here we follow Lee and Durbán (2011) and reparameterize them as mixed models. The first two sections of the chapter are dedicated to introduce the Smooth-ANOVA models and to show how out-of-sample prediction can be carried out in these models. We illustrate the prediction with Smooth-ANOVA models reanalyzing the dataset on aboveground biomass. Now, the Smooth-ANOVA model allows us to represent the smooth function as the sum of a smooth function for the height, a smooth function for the diameter of a tree, and a smooth term for the height-diameter interaction. At the end of this chapter, we provide a simulation study in order to evaluate the accuracy of the 2D interaction P-spline models and Smooth-ANOVA models, with and without imposing invariance of the fit. From the results of the simulation study, we conclude that in most situations the constrained S-ANOVA model behaves better in the fit and out-of-sample predictions, however, results depend on the simulation scenario and on the number of dimensions in which the prediction is carried out (one or both dimensions). In the fifth chapter we generalize the developed methodology for generalized linear models (GLMs) in the context of P-splines (P-GLMs) and mixed models (P-GLMMs). In both frameworks, the coefficients and parameters estimation procedures involve nonlinear equations. To solve them iterative algorithms based on the Newton-Raphson methods are used, regardless of the estimation criterion used (for instance, in the GLMMs context we can maximize the residual maximum likelihood (REML) or an approximate REML (based on Laplace approximation)). These iterative algorithms are based on a working normal theory model or a set of pseudodata and weights. Based on this idea, we extend the Penalized Quasilikelihood method (PQL) to fit and predict simultaneously in the context of GLMM. We highlight that, in the context of mixed models (even in the univariate case), to maintain the fit a transformation that preserves the original model matrices has to be used, since different transformations deal with different working vectors and therefore with different solutions. We also show how restrictions can be imposed in P-GLMs and P-GLMMs models. To illustrate the procedures we use a real dataset to predict deaths due to respiratory disease through 2D interaction P-splines and S-ANOVA models (both with and without the restriction the fit has to be maintained). Finally, Chapter 6 is devoted to summarize the main conclusions and pose a list of future lines of work.
Las técnicas de suavizado se han convertido en uno de los enfoques de modelado más populares en el entorno unidimensional y multidimensional. Sin embargo, la predicción fuera del rango de valores conocidos en el contexto de los modelos de suavizado sigue siendo un problema abierto que puede ampliar significativamente el uso de estos modelos en muchas áreas de conocimiento. El objetivo de este documento es proponer un marco general para la predicción en regresión penalizada, particularmente en el contexto de P-splines. Con ese fin, el Capítulo 1 incluye una revisión de las diferentes propuestas disponibles en la literatura y los resultados útiles y necesarios a lo largo del documento, la formulación de un modelo P-spline y su reparametrización como modelo mixto. En el Capítulo 2, generalizamos el enfoque dado por Currie et al. (2004) para predecir con cualquier base de regresión y penalización cuadrática. Para el caso particular de penalizaciones basadas en diferencias entre coeficientes adyacentes, reparametrizamos el modelo P-spline extendido como un modelo mixto y demostramos que el ajuste sigue siendo el mismo que el resultado que obtenemos solo ajustando los datos, también mostramos el papel crucial del orden de penalización, ya que determina la forma de la predicción. Además, adaptamos los métodos disponibles en contextos como modelos mixtos (Gilmour et al. 2004) u optimización global (Sacks et al. 1989) predecir en el contexto de la regresión penalizada y demostramos su equivalencia para el caso particular de P-splines. Una extensa sección de ejemplos ilustra la aplicación de la metodología. Utilizamos tres conjuntos de datos reales con características particulares: uno de ellos, sobre biomasa, nos permite mostrar que la predicción también se puede realizar a la izquierda de los datos; otro de ellos, sobre los niveles mensuales de dióxido de azufre, ilustra como la predicción puede tener en cuenta las tendencias temporales y los efectos estacionales utilizando el modelo de modulación suave basado en P-splines sugerido por Eilers et al. (2008); y otro, sobre el nivel anual del mar, muestra que la predicción también se puede realizar en el caso de errores correlacionados. También presentamos el concepto de “memoria de un P-spline” como una herramienta para saber cuánta información conocida usamos para predecir nuevos valores. En el tercer capítulo, proponemos un marco general para la predicción en el suavizado multidimensional, ampliamos la propuesta de Currie et al. (2004) para predecir cuando se extiende más de una covariable. La extensión del método de predicción al caso multidimensional no es directa en el sentido de que, en este contexto, el ajuste cambia cuando el ajuste y la predicción se llevan a cabo simultáneamente. Para resolver este problema, proponemos una solución fácil, basada en multiplicadores de Lagrange. La primera parte del capítulo está dedicada a mostrar cómo se pueden realizar predicciones fuera de la muestra en el contexto de P-splines multidimensionales y las propiedades que satisfacen, bajo ciertas condiciones, los coeficientes que determinan la predicción. También proponemos el uso de restricciones para mantener el ajuste y, en general, para incorporar cualquier información conocida sobre la predicción. La segunda parte del capítulo está dedicada a extender la metodología al marco de modelos mixtos suaves. Se sabe que cuando un modelo de P-spline se reparametriza como un modelo mixto, la estructura de los coeficientes se pierde, es decir, no se ordenan de acuerdo con la posición de los nodos. Este hecho no es relevante cuando ajustamos los datos, pero si predecimos e imponemos restricciones sobre los coeficientes, necesitamos diferenciar entre los coeficientes que determinan el ajuste y los coeficientes que determinan la predicción. Para hacer eso, definimos una matriz de transformación particular que conserva las matrices del modelo original. El método de predicción y el uso de restricciones se ilustran con un ejemplo de datos reales sobre el logaritmo de las tasas de mortalidad de la población masculina estadounidense. Mostramos como resolver el problema de cruce de proyecciones edades adyacentes cuando se predicen tablas de mortalidad y comparamos los resultados con el método desarrollado en Delwarde et al. (2007). La investigación en el Capítulo 4 está motivada por la necesidad de extender la metodología de predicción en el caso multidimensional a modelos más flexibles, los modelos Smooth-ANOVA, que nos permiten incluir términos de interacción que pueden descomponerse como una suma de varias funciones suaves. La construcción de estos modelos a través de B-splines tiene problemas de identificabilidad. Hay varias alternativas para resolver este problema, nosotros seguimos Lee and Durbán (2011) y lo reparametrizamos como modelos mixtos. Las primeras dos secciones del capítulo están dedicadas a presentar los modelos Smooth-ANOVA y mostrar cómo se puede llevar a cabo la predicción fuera del rango de valores observados en estos modelos. Ilustramos la predicción con modelos Smooth-ANOVA reanalizando el conjunto de datos sobre biomasa. Ahora, el modelo Smooth-ANOVA nos permite representar la función suave como la suma de una función suave para la altura, un término suave para el diámetro y una función suave para la interacción altura-diámetro. Al final de este capítulo, proporcionamos un estudio de simulación para evaluar la precisión de los modelos de interacción 2D P-spline y los modelos Smooth-ANOVA, con y sin imponer la invariancia del ajuste. A partir de los resultados del estudio de simulación, concluimos que en la mayoría de las situaciones el modelo S-ANOVA restringido se comporta mejor tanto en el ajuste como en la predicción, sin embargo, los resultados dependen del escenario de simulación y del número de dimensiones en las que se realiza la predicción (una o ambas dimensiones). En el quinto capítulo generalizamos la metodología desarrollada para modelos lineales generalizados (GLM) en el contexto de P-splines (P-GLM) y modelos mixtos (P-GLMM). En ambos marcos, los procedimientos de estimación de coeficientes y parámetros involucran ecuaciones no lineales. Para resolverlos, se utilizan algoritmos iterativos basados en los métodos de Newton-Raphson, independientemente del criterio de estimación utilizado (por ejemplo, en el contexto de GLMMs podemos maximizar la máxima verosimilitud residual (REML) o un REML aproximado (basado en la aproximación de Laplace)). Estos algoritmos iterativos se basan en un modelo teórico normal o en un conjunto de pseudodatos y pesos. Basándonos en esta idea, ampliamos el método Penalized Quasilikelihood (PQL) para ajustar y predecir simultáneamente en el contexto de GLMMs. Destacamos que, en el contexto de modelos mixtos (incluso en el caso univariante), para mantener el ajuste, se debe utilizar una transformación que conserve las matrices del modelo original, ya que las diferentes transformaciones tratan con diferentes vectores de trabajo y, por lo tanto, con diferentes soluciones. También mostramos como se pueden imponer restricciones en los modelos P-GLM y P-GLMM. Para ilustrar los procedimientos, utilizamos un conjunto de datos real para predecir las muertes por enfermedad respiratoria a través de modelos 2D P-splines y modelos S-ANOVA (con y sin la restricción el ajuste debe mantenerse). Finalmente, el Capítulo 6 se dedica a resumir las principales conclusiones y a plantear una lista de futuras líneas de trabajo.
Mención Internacional en el título de doctor
Prediction, Penalized regression, P-splines, Smooth-ANOVA, Mixed Models, Iterative algorithms
Bibliographic citation