RT Dissertation/Thesis T1 Robust methods based on shrinkage A1 Cabana Garceran del Vall, Elisa AB In this thesis, robust methods based on the notion of shrinkage are proposed for outlierdetection and robust regression. A collection of robust Mahalanobis distances isproposed for multivariate outlier detection. The robust intensity and scaling factors,needed to define the shrinkage of the robust estimators used in the distances, are optimallyestimated. Some properties are investigated, such as the affine equivarianceand the breakdown value. The performance of the proposal is illustrated throughthe comparison to other robust techniques from the literature, in a simulation studyand with a real example of breast cancer data. The robust alternatives are alsoreviewed, highlighting their advantages and disadvantages. The behavior when theunderlying distribution is heavy-tailed or skewed, shows the appropriateness of theproposed method when we deviate from the common assumption of normality. Theresulting high true positive rates and low false positive rates in the vast majority ofcases, as well as the significantly smaller computational time show the advantagesof the proposal.On the other hand, a robust estimator is proposed for the parameters that characterizethe linear regression problem. It is also based on the notion of shrinkages.A thorough simulation study is conducted to investigate the efficiency with Normaland heavy-tailed errors, the robustness under contamination, the computationaltimes, the affine equivariance and breakdown value of the regression estimator. It iscompared to the classical Ordinary Least Squares (OLS) approach and the robustalternatives from the literature, which are also briefly reviewed in the thesis. Twoclassical data-sets often used in the literature and a real socio-economic data-setabout the Living Environment Deprivation (LED) of areas in Liverpool (UK), arestudied. The results from the simulations and the real data examples show theadvantages of the proposed robust estimator in regression. Also, with the LEDdata-set it is also shown that the proposed robust regression method has improvedperformance than machine learning techniques previously used for this data, withthe advantage of interpretability.Furthermore, an adaptive threshold, that depends on the sample size and thedimension of the data, is introduced for the proposed robust Mahalanobis distance based on shrinkage estimators. The cut-off is different than the classical choice ofthe 0.975 chi-square quantile providing a more accurate method to detect multivariateoutliers. A simulation study is done to check the performance improvement ofthe new cut-off against the classical. The adjusted quantile shows improved performance,even when the underlying distribution is heavy-tailed or skewed. Themethod is illustrated using the LED data-set, and the results demonstrate the additionaladvantages of the adaptive threshold for the regression problem. AB En esta tesis, se proponen métodos robustos basados en la noción de shrinkage parala detección de atípicos y la regresión robusta. Se propone una colección de distanciasde Mahalanobis robustas para la detección de outliers multivariantes. Losfactores de intensidad y escala, necesarios para definir el shrinkage de los estimadoresrobustos utilizados en las distancias, se estiman de manera óptima. Se investiganalgunas propiedades como la equivarianza afín y el breakdown value (valor de ruptura).El desempeño de la propuesta se ilustra mediante la comparación con otrastécnicas robustas de la literatura, en un estudio de simulación y con un ejemploreal de datos de cáncer de mama. Las alternativas robustas también se revisan,destacando sus ventajas y desventajas. El comportamiento cuando la distribuciónsubyacente es de cola pesada o asimétrica, muestra lo apropiado que es el métodopropuesto cuando nos apartamos de la suposición común de normalidad. Las altastasas de verdaderos positivos y las bajas tasas de falsos positivos, en la gran mayoríade los casos, así como el tiempo de cómputo significativamente menor, muestran lasventajas de la propuesta.Por otro lado, se introduce un estimador robusto para los parámetros que caracterizanla regresión lineal. También se basa en la noción de shrinkage. Se llevaa cabo un estudio de simulación exhaustivo para investigar la eficiencia con erroresNormales y de cola pesada, la robustez bajo contaminación, los tiempos decómputo, la equivarianza afín y el valor de ruptura del estimador de regresión. Secompara con el método Mínimos Cuadrados Ordinarios (OLS) clásico y las alternativassólidas de la literatura, que también se revisan brevemente en la tesis. Seestudian dos conjuntos de datos clásicos que se utilizan a menudo en la literaturay un conjunto de datos socioeconómicos reales sobre la privación del entorno vital(LED) de las áreas de Liverpool (Reino Unido). Los resultados de las simulaciones ylos ejemplos de datos reales muestran las ventajas del estimador robusto propuestopara regresión. Además, con el conjunto de datos LED también se muestra que elmétodo de regresión robusta propuesto presenta mejoras con respecto a las técnicasde aprendizaje automático utilizadas anteriormente para estos datos, con la ventajade la interpretabilidad.Además, se introduce un recorte adaptativo, que depende del tamaño de la muestray la dimensión de los datos, para la distancia robusta de Mahalanobis propuesta,basada en estimadores shrinkage. El valor de recorte es diferente a la opción clásicadel cuantil 0.975 de la chi-cuadrado, y proporciona un método más preciso paradetectar valores atípicos multivariados. Se realiza un estudio de simulación paraverificar el rendimiento del nuevo punto de corte respecto al clásico. El cuantil ajustadomuestra un desempeño mejorado, incluso cuando la distribución subyacente esde cola pesada o asimétrica. El método se ilustra utilizando el conjunto de datosLED y los resultados demuestran las ventajas adicionales del recorte adaptativo parael problema de regresión. YR 2019 FD 2019-09 LK https://hdl.handle.net/10016/29850 UL https://hdl.handle.net/10016/29850 LA eng NO I want to acknowledge the financial support received from the SpanishMinistry of Economy and Competitiveness ECO2015-66593-P and the UC3M PIFpre-doctoral scholarship. DS e-Archivo RD 20 may. 2024