Department/Institute:
Universidad Carlos III de Madrid. Departamento de Estadística
Degree:
Programa de Doctorado en Ingeniería Matemática por la Universidad Carlos III de Madrid
Issued date:
2020-01-13
Defense date:
2020-01-13
Committee:
Presidente: Carlo Giovanni Camarda.- Secretario: Aurea Grane Chávez.- Vocal: María José Rodríguez Álvarez
xmlui.dri2xhtml.METS-1.0.item-contributor-funder:
Ministerio de Economía y Competitividad (España)
Sponsor:
The research presented in this thesis has been partially supported by the Basque Government through the BERC 2018-2021 program and by Spanish Ministry of Economy
and Competitiveness MINECO through BCAM Severo Ochoa excellence accreditation
SEV-2013-0323 and through projects MTM2017-82379-R, funded by (AEI/FEDER, UE)
and acronym “AFTERAM”, and MTM2014-52184-P.
Rights:
Atribución-NoComercial-SinDerivadas 3.0 España
Abstract:
Smoothing techniques have become one of the most popular modelling approaches in the
unidimensional and multidimensional setting. However, out-of-sample prediction in the
context of smoothing models is still an open problem that can significantly widen the uSmoothing techniques have become one of the most popular modelling approaches in the
unidimensional and multidimensional setting. However, out-of-sample prediction in the
context of smoothing models is still an open problem that can significantly widen the use
of these models in many areas of knowledge. The objective of this thesis is to propose
a general framework for prediction in penalized regression, particularly in the P-splines
context.
To that end, Chapter 1 includes a review of the different proposals available in the literature,
and results useful and necessary along the document, the formulation of a P-spline
model and its reparameterization as a mixed model.
In Chapter 2, we generalize the approach given by Currie et al. (2004) to predict with
any regression basis and quadratic penalty. For the particular case of penalties based on
differences between adjacent coefficients, we reparameterize the extended P-spline model
as a mixed model and we prove that the fit remains the same as the result we obtain only
fitting the data and show the crucial role of the penalty order, since it determines the
shape of the prediction. Moreover, we adapt available methods in contexts such as mixed
models (Gilmour et al. 2004) or global optimization (Sacks et al. 1989) to predict in the
context of penalized regression and prove their equivalence for the particular case of Psplines.
An extensive section of examples illustrates the application of the methodology.
We use three real datasets with particular characteristics: one of them on aboveground
biomass allow us to show that prediction can also be performed to the left of the data;
other of them, on monthly sulphur dioxide levels, illustrates how prediction can take
into account the temporal trends and seasonal effects by using the smooth modulation
model based on P-splines suggested by Eilers et al. (2008); and other, on yearly sea level,
shows that prediction can also be carried out in the case of correlated errors. We also
introduce the concept of “memory of a P-spline” as a tool to know how much of the
known information we use to predict new values.
In the third chapter, we propose a general framework for prediction in multidimensional smoothing, we extend the proposal of Currie et al. (2004) to predict when more than one
covariate is extended. The extension of the prediction method to the multidimensional
case is not straightforward in the sense that, in this context, the fit changes when the fit
and the prediction are carried out simultaneously. To overcome this problem we propose
an easy but elegant solution, based on Lagrange multipliers. The first part of the chapter
is dedicated to show how out-of-sample predictions can be carried out in the context of
multidimensional P-splines and the properties satisfied, under certain conditions, by
the coefficients that determine the prediction. We also propose the use of restrictions
to maintain the fit, and in general, to incorporate any known information about the
prediction. The second part of the chapter is dedicated to extend the methodology
to the smooth mixed model framework. It is known that when a P-spline model is
reparameterized as a mixed model, the structure of the coefficients is lost, that is, they
are not ordered according to the position of the knots. This fact is not relevant when
we fit the data, but if we predict and impose restrictions over the coefficients, we need
to differentiate between the coefficients that determine the fit and the coefficients that
determine the prediction. In order to do that, we define a particular transformation
matrix that preserves the original model matrices. The prediction method and the use
of restrictions is illustrated with one real data example on log mortality rates of US male
population. We show how to solve the crossover problem of adjacent ages when mortality
tables are forecasted and compare the results with the well-known method developed in
Delwarde et al. (2007).
The research in Chapter 4, is motivated by the need to extend the prediction methodology
in the multidimensional case to more flexible models, the so-called Smooth-ANOVA
models, which allow us to include interaction terms that can be decomposed as a sum of
several smooth functions. The construction of these models through B-splines basis suffer
from identifiability problems. There are several alternatives to solve this problem, here
we follow Lee and Durbán (2011) and reparameterize them as mixed models. The first
two sections of the chapter are dedicated to introduce the Smooth-ANOVA models and
to show how out-of-sample prediction can be carried out in these models. We illustrate
the prediction with Smooth-ANOVA models reanalyzing the dataset on aboveground
biomass. Now, the Smooth-ANOVA model allows us to represent the smooth function
as the sum of a smooth function for the height, a smooth function for the diameter of a
tree, and a smooth term for the height-diameter interaction. At the end of this chapter,
we provide a simulation study in order to evaluate the accuracy of the 2D interaction
P-spline models and Smooth-ANOVA models, with and without imposing invariance of
the fit. From the results of the simulation study, we conclude that in most situations
the constrained S-ANOVA model behaves better in the fit and out-of-sample predictions, however, results depend on the simulation scenario and on the number of dimensions in
which the prediction is carried out (one or both dimensions).
In the fifth chapter we generalize the developed methodology for generalized linear models
(GLMs) in the context of P-splines (P-GLMs) and mixed models (P-GLMMs). In
both frameworks, the coefficients and parameters estimation procedures involve nonlinear
equations. To solve them iterative algorithms based on the Newton-Raphson methods
are used, regardless of the estimation criterion used (for instance, in the GLMMs context
we can maximize the residual maximum likelihood (REML) or an approximate REML
(based on Laplace approximation)). These iterative algorithms are based on a working
normal theory model or a set of pseudodata and weights. Based on this idea, we extend
the Penalized Quasilikelihood method (PQL) to fit and predict simultaneously in
the context of GLMM. We highlight that, in the context of mixed models (even in the
univariate case), to maintain the fit a transformation that preserves the original model
matrices has to be used, since different transformations deal with different working vectors
and therefore with different solutions. We also show how restrictions can be imposed
in P-GLMs and P-GLMMs models. To illustrate the procedures we use a real dataset to
predict deaths due to respiratory disease through 2D interaction P-splines and S-ANOVA
models (both with and without the restriction the fit has to be maintained).
Finally, Chapter 6 is devoted to summarize the main conclusions and pose a list of future
lines of work.[+][-]
Las técnicas de suavizado se han convertido en uno de los enfoques de modelado más
populares en el entorno unidimensional y multidimensional. Sin embargo, la predicción
fuera del rango de valores conocidos en el contexto de los modelos de suavizado sigue
siLas técnicas de suavizado se han convertido en uno de los enfoques de modelado más
populares en el entorno unidimensional y multidimensional. Sin embargo, la predicción
fuera del rango de valores conocidos en el contexto de los modelos de suavizado sigue
siendo un problema abierto que puede ampliar significativamente el uso de estos modelos
en muchas áreas de conocimiento. El objetivo de este documento es proponer un marco
general para la predicción en regresión penalizada, particularmente en el contexto de
P-splines.
Con ese fin, el Capítulo 1 incluye una revisión de las diferentes propuestas disponibles en
la literatura y los resultados útiles y necesarios a lo largo del documento, la formulación
de un modelo P-spline y su reparametrización como modelo mixto.
En el Capítulo 2, generalizamos el enfoque dado por Currie et al. (2004) para predecir con
cualquier base de regresión y penalización cuadrática. Para el caso particular de penalizaciones
basadas en diferencias entre coeficientes adyacentes, reparametrizamos el modelo
P-spline extendido como un modelo mixto y demostramos que el ajuste sigue siendo
el mismo que el resultado que obtenemos solo ajustando los datos, también mostramos
el papel crucial del orden de penalización, ya que determina la forma de la predicción.
Además, adaptamos los métodos disponibles en contextos como modelos mixtos (Gilmour
et al. 2004) u optimización global (Sacks et al. 1989) predecir en el contexto de la regresión penalizada y demostramos su equivalencia para el caso particular de P-splines.
Una extensa sección de ejemplos ilustra la aplicación de la metodología. Utilizamos tres
conjuntos de datos reales con características particulares: uno de ellos, sobre biomasa, nos
permite mostrar que la predicción también se puede realizar a la izquierda de los datos;
otro de ellos, sobre los niveles mensuales de dióxido de azufre, ilustra como la predicción
puede tener en cuenta las tendencias temporales y los efectos estacionales utilizando el
modelo de modulación suave basado en P-splines sugerido por Eilers et al. (2008); y otro,
sobre el nivel anual del mar, muestra que la predicción también se puede realizar en el
caso de errores correlacionados. También presentamos el concepto de “memoria de un
P-spline” como una herramienta para saber cuánta información conocida usamos para predecir nuevos valores.
En el tercer capítulo, proponemos un marco general para la predicción en el suavizado
multidimensional, ampliamos la propuesta de Currie et al. (2004) para predecir cuando
se extiende más de una covariable. La extensión del método de predicción al caso multidimensional
no es directa en el sentido de que, en este contexto, el ajuste cambia cuando
el ajuste y la predicción se llevan a cabo simultáneamente. Para resolver este problema,
proponemos una solución fácil, basada en multiplicadores de Lagrange. La primera parte
del capítulo está dedicada a mostrar cómo se pueden realizar predicciones fuera de la
muestra en el contexto de P-splines multidimensionales y las propiedades que satisfacen,
bajo ciertas condiciones, los coeficientes que determinan la predicción. También proponemos
el uso de restricciones para mantener el ajuste y, en general, para incorporar
cualquier información conocida sobre la predicción. La segunda parte del capítulo está
dedicada a extender la metodología al marco de modelos mixtos suaves. Se sabe que
cuando un modelo de P-spline se reparametriza como un modelo mixto, la estructura
de los coeficientes se pierde, es decir, no se ordenan de acuerdo con la posición de los
nodos. Este hecho no es relevante cuando ajustamos los datos, pero si predecimos e imponemos
restricciones sobre los coeficientes, necesitamos diferenciar entre los coeficientes
que determinan el ajuste y los coeficientes que determinan la predicción. Para hacer eso,
definimos una matriz de transformación particular que conserva las matrices del modelo
original. El método de predicción y el uso de restricciones se ilustran con un ejemplo
de datos reales sobre el logaritmo de las tasas de mortalidad de la población masculina
estadounidense. Mostramos como resolver el problema de cruce de proyecciones edades
adyacentes cuando se predicen tablas de mortalidad y comparamos los resultados con el
método desarrollado en Delwarde et al. (2007).
La investigación en el Capítulo 4 está motivada por la necesidad de extender la metodología
de predicción en el caso multidimensional a modelos más flexibles, los modelos Smooth-ANOVA, que nos permiten incluir términos de interacción que pueden descomponerse
como una suma de varias funciones suaves. La construcción de estos modelos a través
de B-splines tiene problemas de identificabilidad. Hay varias alternativas para resolver
este problema, nosotros seguimos Lee and Durbán (2011) y lo reparametrizamos como
modelos mixtos. Las primeras dos secciones del capítulo están dedicadas a presentar
los modelos Smooth-ANOVA y mostrar cómo se puede llevar a cabo la predicción fuera
del rango de valores observados en estos modelos. Ilustramos la predicción con modelos
Smooth-ANOVA reanalizando el conjunto de datos sobre biomasa. Ahora, el modelo
Smooth-ANOVA nos permite representar la función suave como la suma de una función
suave para la altura, un término suave para el diámetro y una función suave para la interacción altura-diámetro. Al final de este capítulo, proporcionamos un estudio de
simulación para evaluar la precisión de los modelos de interacción 2D P-spline y los
modelos Smooth-ANOVA, con y sin imponer la invariancia del ajuste. A partir de los
resultados del estudio de simulación, concluimos que en la mayoría de las situaciones el
modelo S-ANOVA restringido se comporta mejor tanto en el ajuste como en la predicción,
sin embargo, los resultados dependen del escenario de simulación y del número de dimensiones
en las que se realiza la predicción (una o ambas dimensiones).
En el quinto capítulo generalizamos la metodología desarrollada para modelos lineales
generalizados (GLM) en el contexto de P-splines (P-GLM) y modelos mixtos (P-GLMM).
En ambos marcos, los procedimientos de estimación de coeficientes y parámetros involucran
ecuaciones no lineales. Para resolverlos, se utilizan algoritmos iterativos basados en
los métodos de Newton-Raphson, independientemente del criterio de estimación utilizado
(por ejemplo, en el contexto de GLMMs podemos maximizar la máxima verosimilitud
residual (REML) o un REML aproximado (basado en la aproximación de Laplace)).
Estos algoritmos iterativos se basan en un modelo teórico normal o en un conjunto de
pseudodatos y pesos. Basándonos en esta idea, ampliamos el método Penalized Quasilikelihood
(PQL) para ajustar y predecir simultáneamente en el contexto de GLMMs.
Destacamos que, en el contexto de modelos mixtos (incluso en el caso univariante), para
mantener el ajuste, se debe utilizar una transformación que conserve las matrices del
modelo original, ya que las diferentes transformaciones tratan con diferentes vectores de
trabajo y, por lo tanto, con diferentes soluciones. También mostramos como se pueden
imponer restricciones en los modelos P-GLM y P-GLMM. Para ilustrar los procedimientos,
utilizamos un conjunto de datos real para predecir las muertes por enfermedad respiratoria
a través de modelos 2D P-splines y modelos S-ANOVA (con y sin la restricción
el ajuste debe mantenerse).
Finalmente, el Capítulo 6 se dedica a resumir las principales conclusiones y a plantear
una lista de futuras líneas de trabajo.[+][-]