RT Dissertation/Thesis T1 Variable selection algorithms in generalized linear models A1 Laria de la Cruz, Juan Carlos AB This thesis has been developed at University Carlos III of Madrid,motivated through a collaboration with the Gregorio Marañón GeneralUniversity Hospital, in Madrid. It is framed within the field ofPenalized Linear Models, specifically Variable Selection in Regression,Classification and Survival Models, but it also explores othertechniques such as Variable Clustering and Semi-Supervised Learning.In recent years, variable selection techniques based on penalized modelshave gained considerable importance. With the advance of technologiesin the last decade, it has been possible to collect and processhuge volumes of data with algorithms of greater computational complexity.However, although it seemed that models that provided simpleand interpretable solutions were going to be definitively displaced bymore complex ones, they have still proved to be very useful. Indeed, ina practical sense, a model that is capable of filtering important information,easily extrapolated and interpreted by a human, is often morevaluable than a more complex model that is incapable of providingany kind of feedback on the underlying problem, even when the latteroffers better predictions.This thesis focuses on high dimensional problems, in which the numberof variables is of the same order or larger than the sample size.In this type of problems, restrictions that eliminate variables from themodel often lead to better performance and interpretability of the results.To adjust linear regression in high dimension the Sparse GroupLasso regularization method has proven to be very efficient. However,in order to use the Sparse Group Lasso in practice, there are two criticalaspects on which the solution depends: the correct selection of theregularization parameters, and a prior specification of groups of variables.Very little research has focused on algorithms for the selectionof the regularization parameters of the Sparse Group Lasso, and nonehas explored the issue of the grouping and how to relax this restrictionthat in practice is an obstacle to using this method.The main objective of this thesis is to propose new methods of variableselection in generalized linear models. This thesis explores the Sparse Group Lasso regularization method, analyzing in detail thecorrect selection of the regularization parameters, and finally relaxingthe problem of group specification by introducing a new variableclustering algorithm based on the Sparse Group Lasso, but much moreflexible and that extends it. In a parallel but related line of research,this thesis reveals a connection between penalized linear models andsemi-supervised learning.This thesis is structured as a compendium of articles, divided into fourchapters. Each chapter has a structure and contents independent fromthe rest, however, all of them follow a common line. First, variable selectionmethods based on regularization are introduced, describing theoptimization problem that appears and a numerical algorithm to approximateits solution when a term of the objective function is not differentiable.The latter occurs naturally when penalties inducing variableselection are added. A contribution of this work is the iterativeSparse Group Lasso, which is an algorithm to obtain the estimationof the coefficients of the Sparse Group Lasso model, without the needto specify the regularization parameters. It uses coordinate descentfor the parameters, while approximating the error function in a validationsample. Moreover, with respect to the traditional Sparse GroupLasso, this new proposal considers a more general penalty, where eachgroup has a flexible weight. A separate chapter presents an extensionthat uses the iterative Sparse Group Lasso to order the variables inthe model according to a defined importance index. The introductionof this index is motivated by problems in which there are a largenumber of variables, only a few of which are directly related to theresponse variable. This methodology is applied to genetic data, revealingpromising results. A further significant contribution of thisthesis is the Group Linear Algorithm with Sparse Principal decomposition,which is also motivated by problems in which only a smallnumber of variables influence the response variable. However, unlikeother methodologies, in this case the relevant variables are not necessarilyamong the observed data. This makes it a potentially powerfulmethod, adaptable to multiple scenarios, which is also, as a side effect,a supervised variable clustering algorithm. Moreover, it can beinterpreted as an extension of the Sparse Group Lasso that does notrequire an initial specification of the groups. From a computational point of view, this paper presents an organized framework for solvingproblems in which the objective function is a linear combinationof a differentiable error term and a penalty. The flexibility of thisimplementation allows it to be applied to problems in very differentcontexts, for example, the proposed Generalized Elastic Net for semisupervisedlearning.Regarding its main objective, this thesis offers a framework for theexploration of generalized interpretable models. In the last chapter,in addition to compiling a summary of the contributions of the thesis,future lines of work in the scope of the thesis are included. AB Esta tesis se ha desarrollado en la Universidad Carlos III de Madridmotivada por una colaboración de investigación con el Hospital GeneralUniversitario Gregorio Marañón, en Madrid. Está enmarcada dentrodel campo de los Modelos Lineales Penalizados, concretamenteSelección de Variables en Modelos de Regresión, Clasificación y Supervivencia,pero también explora otras técnicas como Clustering deVariables y Aprendizaje Semi-Supervisado.En los últimos años, las técnicas de selección de variables basadasen modelos penalizados han cobrado notable importancia. Con elavance de las tecnologías en la última década, se ha conseguido recopilary tratar enormes volúmenes de datos con algoritmos de unacomplejidad computacional superior. Sin embargo, aunque parecíaque los modelos que aportaban soluciones sencillas e interpretablesiban a ser definitivamente desplazados por otros más complejos, hanresultado ser todavía muy útiles. De hecho, en un sentido práctico,muchas veces tiene más valor un modelo que sea capaz de filtrar informaciónimportante, fácilmente extrapolable e interpretable por unhumano, que otro más complejo incapaz de aportar ningún tipo deretroalimentación al problema de fondo, incluso cuando este últimoofrezca mejores predicciones.Esta tesis se enfoca en problemas de alta dimensión, en los cuales elnúmero de variables es del mismo orden o superior al tamaño muestral.En este tipo de problemas, restricciones que eliminen variablesdel modelo a menudo conducen a un mejor desempeño e interpretabilidadde los resultados. Para ajustar regresión lineal en alta dimensiónel método de regularización Sparse Group Lasso ha demostradoser muy eficiente. No obstante, para utilizar en la práctica el SparseGroup Lasso, hay que tener en cuenta dos aspectos fundamentales delos cuales depende la solución, que son la correcta selección de losparámetros de regularización, y una especificación previa de gruposde variables. Muy pocas investigaciones se han centrado en algoritmospara la selección de los parámetros de regularización del SparseGroup Lasso, y ninguna ha explorado el tema de la agrupación y cómorelajar esta restricción que en la práctica constituye una barrera parautilizar este método.El principal objetivo de esta tesis es proponer nuevos métodos de selecciónde variables en modelos lineales generalizados. Esta tesis explorael método de regularización Sparse Group Lasso, analizandodetalladamente la correcta selección de los parámetros de regularización,y finalmente relajando el problema de la especificación delos grupos mediante un nuevo algoritmo de agrupación de variablesbasado en el Sparse Group Lasso, pero mucho más flexible y que loextiende. En una línea de investigación paralela, pero relacionada,esta tesis revela una conexión entre los modelos lineales penalizadosy el aprendizaje semi-supervisado.Esta tesis está estructurada en formato por compendio de artículos,dividida en cuatro capítulos. Cada capítulo tiene una estructura ycontenidos independiente del resto, sin embargo, siguen todos un ejecomún. Primeramente, se introducen los métodos de selección devariables basados en regularización, describiendo el problema de optimizaciónque aparece y un algoritmo numérico para aproximar susolución cuando una parte de la función objetivo no es diferenciable.Esto último ocurre de manera natural cuando se añaden penalizacionesque inducen selección de variables. Una de las aportacionesde este trabajo es el iterative Sparse Group Lasso, que es un algoritmopara obtener la estimación de los coeficientes del modelo SparseGroup Lasso, sin la necesidad de especificar los parámetros de regularización.Utiliza descenso por coordenadas para los parámetros,mientras aproxima la función de error en una muestra de validación.Además, con respecto al Sparse Group Lasso clásico, esta nueva propuestaconsidera una penalización más general, donde cada grupotiene un peso flexible. En otro capítulo se presenta una extensión queutiliza el iterative Sparse Group Lasso para ordenar las variables delmodelo según un índice de importancia definido. La introducción deeste índice está motivada por problemas en los cuales hay un númeroelevado de variables, de las cuales solamente unas pocas están relacionadasdirectamente con la variable respuesta. Esta metodologíaes aplicada a unos datos genéticos, mostrando resultados prometedores.Otra importante aportación de esta tesis es el Group LinearAlgorithm with Sparse Principal decomposition, que está motivadotambién por problemas en los cuales solamente un número reducidode variables influye en la variable respuesta. Sin embargo, a diferencia de otras metodologías, en este caso las variables influyentes nonecesariamente están entre las características observadas. Esto lo convierteen un método muy potente, adaptable a múltiples escenarios,que además, como efecto secundario, es un algoritmo supervisado deagrupación de variables. En un sentido, puede interpretarse como unaextensión del Sparse Group Lasso que no requiere una especificacióninicial de los grupos. Desde un punto de vista computacional, estetrabajo presenta un enfoque organizado para resolver problemas enlos cuales la función objetivo es una combinación lineal de un términode error diferenciable y una penalización. La flexibilidad deesta implementación le permite ser aplicada a problemas en contextosmuy diferentes, por ejemplo, el Generalized Elastic Net propuestopara aprendizaje semi-supervisado.Con relación a su principal objetivo, esta tesis ofrece un marco para lainvestigación de modelos generalizados interpretables. En el últimocapítulo, además de recopilarse un resumen de las aportaciones de latesis, se incluyen líneas de trabajo futuro en el ámbito de la temáticade la tesis. YR 2020 FD 2020-06 LK https://hdl.handle.net/10016/31895 UL https://hdl.handle.net/10016/31895 LA eng NO Mención Internacional en el título de doctor NO Simulations in Sections 3.3 and 3.4 have been carried out in Uranus, a supercomputer cluster located at Universidad Carlos III de Madrid and funded jointly by EU-FEDER funds and by the Spanish Government via the National Projects No. UNC313-4E-2361, No. ENE2009-12213- C03-03, No. ENE2012-33219 and No. ENE2015-68265-P. DS e-Archivo RD 21 may. 2024