RT Dissertation/Thesis T1 Variable selection and predictive models in Big Data environments A1 Méndez Civieta, Álvaro AB In recent years, the advances in data collection technologies have presented a difficultchallenge by extracting increasingly complex and larger datasets. Traditionally,statistics methodologies treated with datasets where the number of variables didnot exceed the number of observations, however, dealing with problems where thenumber of variables is larger than the number of observations has become more andmore common, and can be seen in areas like economics, genetics, climate data, computervision etc. This problem has required the development of new methodologiessuitable for a high dimensional framework.Most of the statistical methodologies are limited to the study of averages. Leastsquares regression, principal component analysis, partial least squares... All thesetechniques provide mean based estimations, and are built around the key idea thatthe data is normally distributed. But this is an assumption that is usually unverifiedin real datasets, where skewness and outliers can easily be found. The estimationof other metrics like the quantiles can help providing a more complete image of thedata distribution.This thesis is built around these two core ideas. The development of more robust,quantile based methodologies suitable for high dimensional problems. The thesis isstructured as a compendium of articles, divided into four chapters where each chapterhas independent content and structure but is nevertheless encompassed withinthe main objective of the thesis.First, Chapter 1 introduces basic concepts and results, assumed to be knownor referenced in the rest of the thesis. A possible solution when dealing with highdimensional problems in the field of regression is the usage of variable selection techniques.In this regard, sparse group lasso (SGL) has proven to be a very effectivealternative. However, the mathematical formulation of this estimator introducessome bias in the model, which means that it is possible that the variables selected by the model are not the truly significant ones. Chapter 2 studies the formulationof an adaptive sparse group lasso for quantile regression, a more flexible formulationthat makes use of the adaptive idea, this is, the usage of adaptive weights inthe penalization to help correcting the bias, improving this way variable selectionand prediction accuracy. An alternative solution to the high dimensional problemis the usage of a dimension reduction technique like partial least squares. Partialleast squares (PLS) is a methodology initially proposed in the field of chemometricsas an alternative to traditional least squares regression when the data is high dimensionalor faces colinearity. It works by projecting the independent data matrixinto a subspace of uncorrelated variables that maximize the covariance with the responsematrix. However, being an iterative process based on least squares makes thismethodology extremely sensitive to the presence of outliers or heteroscedasticity.Chapter 3 defines the fast partial quantile regression, a technique that performsa projection into a subspace where a quantile covariance metric is maximized, effectivelyextending partial least squares to the quantile regression framework. Anotherfield where it is common to find high dimensional data is in functional data analysis,where the observations are functions measured along time, instead of scalars.A key technique in this field is functional principal component analysis (FPCA), amethodology that provides an orthogonal set of basis functions that best explainsthe variability in the data. However, FPCA fails capturing shifts in the scale of thedata affecting the quantiles.Chapter 4 introduces the functional quantile factor model. A methodology thatextends the concept of FPCA to quantile regression, obtaining a model that canexplain the quantiles of the data conditional on a set of common functions.In Chapter 5, asgl, a Python package that solves penalized least squares andquantile regression models in low and high dimensional is introduced frameworks isintroduced, filling a gap in the currently available implementations of these models.Finally, Chapter 6 presents the final conclusions of this thesis, including possiblelines of research and future work. AB En los últimos años, los avances en las tecnologías de recopilación de datos han planteado un difícil reto al extraer conjuntos de datos cada vez más complejos y de mayor tamaño. Tradicionalmente, las metodologías estadísticas trataban con conjuntos de datos en los que el número de variables no superaba el número de observaciones, sin embargo, enfrentarse a problemas en los que el número de variables es mayor que el número de observaciones se ha convertido en algo cada vez más común, y puede verse en áreas como la economía, la genética, los datos relacionados con el clima, la visión por ordenador, etc. Este problema ha exigido el desarrollo de nuevas metodologías adecuadas para un marco de alta dimensión. La mayoría de las metodologías estadísticas se limitan al estudio de la media. Regresión por mínimos cuadrados, análisis de componentes principales, mínimos cuadrados parciales... Todas estas técnicas proporcionan estimaciones basadas en la media, y están construidas en torno a la idea clave de que los datos se distribuyen normalmente. Pero esta es una suposición que no suele verificarse en los conjuntos de datos reales, en los que es fácil encontrar asimetrías y valores atípicos. La estimación de otras métricas como los cuantiles puede ayudar a proporcionar una imagen más completa de la distribución de los datos. Esta tesis se basa en estas dos ideas fundamentales. El desarrollo de metodologías más robustas, basadas en cuantiles, adecuadas para problemas de alta dimensión. La tesis está estructurada como un compendio de artículos, divididos en cuatro capítulos en los que cada uno de ellos tiene un contenido y una estructura independientes pero que, sin embargo, se engloban dentro del objetivo principal de la tesis. En primer lugar, el Capítulo 1 introduce conceptos y resultados básicos, que se suponen conocidos o a los que se hace referencia en el resto de la tesis. Una posible solución cuando se trata con problemas de alta dimensión en el campo de la regresión es el uso de técnicas de selección de variables. En este sentido, el sparse group lasso (SGL) ha demostrado ser una alternativa muy eficaz. Sin embargo, la formulación matemática de este estimador introduce cierto sesgo en el modelo, lo que significa que es posible que las variables seleccionadas por el modelo no sean las verdaderamente significativas. El Capítulo 2 estudia la formulación de un adaptive sparse group lasso para la regresión cuantílica, una formulación más flexible que hace uso de la idea adaptive, es decir, el uso de pesos adaptativos en la penalización para ayudar a corregir el sesgo, mejorando así la selección de variables y la precisión de las predicciones. Una solución alternativa al problema de la alta dimensionalidad es el uso de una técnica de reducción de dimensión como los mínimos cuadrados parciales. Los mínimos cuadrados parciales (PLS por sus siglas en inglés) es una metodología definida inicialmente en el campo de la quimiometría como una alternativa a la regresión tradicional por mínimos cuadrados cuando los datos son de alta dimensión o tienen problemas de colinearidad. Funciona proyectando la matriz de datos independiente en un subespacio de variables no correlacionadas que maximiza la covarianza con la matriz de respuesta. Sin embargo, al ser un proceso iterativo basado en mínimos cuadrados, esta metodología es extremadamente sensible a la presencia de valores atípicos o heteroscedasticidad. El Capítulo 3 define el fast partial quantile regression, una técnica que realiza una proyección en un subespacio en el que se maximiza una métrica de covarianza cuantílica, extendiendo de forma efectiva los mínimos cuadrados parciales al marco de la regresión cuantílica. Otro campo en el que es habitual encontrar datos de alta dimensión es el del análisis de datos funcionales, en el que las observaciones son funciones medidas a lo largo del tiempo, en lugar de escalares. Una técnica clave en este campo es el análisis de componentes principales funcionales (FPCA por sus siglas en inglés), una metodología que proporciona una base ortogonal de funciones que explica la mayor cantidad posible de variabilidad en los datos. Sin embargo, el FPCA no capta los cambios de escala de los datos que afectan a los cuantiles. El Capítulo 4 presenta el functional quantile factor model. Una metodología que extiende el concepto de FPCA a la regresión cuantílica, obteniendo un modelo que puede explicar los cuantiles de los datos condicionados a un conjunto de funciones comunes. En el capítulo 5 asgl, un paquete para Python que resuelve modelos de mínimos cuadrados y regresión cuantílica penalizados en entornos de baja y alta dimensión es presentado, llenando un vacío en las implementaciones actualmente disponibles de estos modelos. Por último, el Capítulo 6 presenta las conclusiones finales de esta tesis, incluyendo posibles líneas de investigación y trabajo futuro. YR 2022 FD 2022-01 LK https://hdl.handle.net/10016/34981 UL https://hdl.handle.net/10016/34981 LA eng NO Mención Internacional en el título de doctor NO I want to acknowledge the financial support received by research grants and projects PIPF UC3M, ECO2015-66593-P (Ministerio de Economía y Competitividad, Spain) and PID2020-113961GB-I00 (Agencia Estatal de Investigación, Spain). DS e-Archivo RD 17 may. 2024