Robust methods based on shrinkage

e-Archivo Repository

Show simple item record

dc.contributor.advisor Lillo Rodríguez, Rosa Elvira
dc.contributor.author Cabana Garceran del Vall, Elisa
dc.coverage.spatial east=-2.9915726; north=53.4083714; name=Liverpool, Reino Unido
dc.date.accessioned 2020-03-06T09:35:47Z
dc.date.available 2020-03-06T09:35:47Z
dc.date.issued 2019-09
dc.date.submitted 2019-09-30
dc.identifier.uri http://hdl.handle.net/10016/29850
dc.description.abstract In this thesis, robust methods based on the notion of shrinkage are proposed for outlier detection and robust regression. A collection of robust Mahalanobis distances is proposed for multivariate outlier detection. The robust intensity and scaling factors, needed to define the shrinkage of the robust estimators used in the distances, are optimally estimated. Some properties are investigated, such as the affine equivariance and the breakdown value. The performance of the proposal is illustrated through the comparison to other robust techniques from the literature, in a simulation study and with a real example of breast cancer data. The robust alternatives are also reviewed, highlighting their advantages and disadvantages. The behavior when the underlying distribution is heavy-tailed or skewed, shows the appropriateness of the proposed method when we deviate from the common assumption of normality. The resulting high true positive rates and low false positive rates in the vast majority of cases, as well as the significantly smaller computational time show the advantages of the proposal. On the other hand, a robust estimator is proposed for the parameters that characterize the linear regression problem. It is also based on the notion of shrinkages. A thorough simulation study is conducted to investigate the efficiency with Normal and heavy-tailed errors, the robustness under contamination, the computational times, the affine equivariance and breakdown value of the regression estimator. It is compared to the classical Ordinary Least Squares (OLS) approach and the robust alternatives from the literature, which are also briefly reviewed in the thesis. Two classical data-sets often used in the literature and a real socio-economic data-set about the Living Environment Deprivation (LED) of areas in Liverpool (UK), are studied. The results from the simulations and the real data examples show the advantages of the proposed robust estimator in regression. Also, with the LED data-set it is also shown that the proposed robust regression method has improved performance than machine learning techniques previously used for this data, with the advantage of interpretability. Furthermore, an adaptive threshold, that depends on the sample size and the dimension of the data, is introduced for the proposed robust Mahalanobis distance based on shrinkage estimators. The cut-off is different than the classical choice of the 0.975 chi-square quantile providing a more accurate method to detect multivariate outliers. A simulation study is done to check the performance improvement of the new cut-off against the classical. The adjusted quantile shows improved performance, even when the underlying distribution is heavy-tailed or skewed. The method is illustrated using the LED data-set, and the results demonstrate the additional advantages of the adaptive threshold for the regression problem.
dc.description.abstract En esta tesis, se proponen métodos robustos basados en la noción de shrinkage para la detección de atípicos y la regresión robusta. Se propone una colección de distancias de Mahalanobis robustas para la detección de outliers multivariantes. Los factores de intensidad y escala, necesarios para definir el shrinkage de los estimadores robustos utilizados en las distancias, se estiman de manera óptima. Se investigan algunas propiedades como la equivarianza afín y el breakdown value (valor de ruptura). El desempeño de la propuesta se ilustra mediante la comparación con otras técnicas robustas de la literatura, en un estudio de simulación y con un ejemplo real de datos de cáncer de mama. Las alternativas robustas también se revisan, destacando sus ventajas y desventajas. El comportamiento cuando la distribución subyacente es de cola pesada o asimétrica, muestra lo apropiado que es el método propuesto cuando nos apartamos de la suposición común de normalidad. Las altas tasas de verdaderos positivos y las bajas tasas de falsos positivos, en la gran mayoría de los casos, así como el tiempo de cómputo significativamente menor, muestran las ventajas de la propuesta. Por otro lado, se introduce un estimador robusto para los parámetros que caracterizan la regresión lineal. También se basa en la noción de shrinkage. Se lleva a cabo un estudio de simulación exhaustivo para investigar la eficiencia con errores Normales y de cola pesada, la robustez bajo contaminación, los tiempos de cómputo, la equivarianza afín y el valor de ruptura del estimador de regresión. Se compara con el método Mínimos Cuadrados Ordinarios (OLS) clásico y las alternativas sólidas de la literatura, que también se revisan brevemente en la tesis. Se estudian dos conjuntos de datos clásicos que se utilizan a menudo en la literatura y un conjunto de datos socioeconómicos reales sobre la privación del entorno vital (LED) de las áreas de Liverpool (Reino Unido). Los resultados de las simulaciones y los ejemplos de datos reales muestran las ventajas del estimador robusto propuesto para regresión. Además, con el conjunto de datos LED también se muestra que el método de regresión robusta propuesto presenta mejoras con respecto a las técnicas de aprendizaje automático utilizadas anteriormente para estos datos, con la ventaja de la interpretabilidad. Además, se introduce un recorte adaptativo, que depende del tamaño de la muestra y la dimensión de los datos, para la distancia robusta de Mahalanobis propuesta, basada en estimadores shrinkage. El valor de recorte es diferente a la opción clásica del cuantil 0.975 de la chi-cuadrado, y proporciona un método más preciso para detectar valores atípicos multivariados. Se realiza un estudio de simulación para verificar el rendimiento del nuevo punto de corte respecto al clásico. El cuantil ajustado muestra un desempeño mejorado, incluso cuando la distribución subyacente es de cola pesada o asimétrica. El método se ilustra utilizando el conjunto de datos LED y los resultados demuestran las ventajas adicionales del recorte adaptativo para el problema de regresión.
dc.description.sponsorship I want to acknowledge the financial support received from the Spanish Ministry of Economy and Competitiveness ECO2015-66593-P and the UC3M PIF pre-doctoral scholarship.
dc.language.iso eng
dc.rights Atribución-NoComercial-SinDerivadas 3.0 España
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject.other Mahalanobis distance
dc.subject.other Shrinkage
dc.subject.other Multivariate outIiers
dc.subject.other Robust estimators
dc.subject.other Ordinary Least Squares
dc.subject.other Living Environment Deprivation
dc.title Robust methods based on shrinkage
dc.type doctoralThesis
dc.subject.eciencia Estadística
dc.subject.eciencia Matemáticas
dc.rights.accessRights openAccess
dc.description.degree Programa de Doctorado en Ingeniería Matemática por la Universidad Carlos III de Madrid
dc.relation.projectID Gobierno de España. ECO2015-66593-P
dc.description.responsability Presidente: Fco. Javier Nogales Martín.- Secretario: Julio Rodríguez Puerta.- Vocal: José Manuel Mira Mcwilliams
dc.contributor.departamento Universidad Carlos III de Madrid. Departamento de Estadística
dc.contributor.funder Ministerio de Economía y Competitividad (España)
 Find Full text

Files in this item

*Click on file's image for preview. (Embargoed files's preview is not supported)


The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record