Department/Institute:
UC3M. Departamento de Estadística
Degree:
Programa de Doctorado en Ingeniería Matemática por la Universidad Carlos III de Madrid
Issued date:
2019-09
Defense date:
2019-09-30
Committee:
Presidente: Fco. Javier Nogales Martín.- Secretario: Julio Rodríguez Puerta.- Vocal: José Manuel Mira Mcwilliams
xmlui.dri2xhtml.METS-1.0.item-contributor-funder:
Ministerio de Economía y Competitividad (España)
Sponsor:
I want to acknowledge the financial support received from the Spanish
Ministry of Economy and Competitiveness ECO2015-66593-P and the UC3M PIF
pre-doctoral scholarship.
Project:
Gobierno de España. ECO2015-66593-P
Keywords:
Mahalanobis distance
,
Shrinkage
,
Multivariate outIiers
,
Robust estimators
,
Ordinary Least Squares
,
Living Environment Deprivation
Rights:
Atribución-NoComercial-SinDerivadas 3.0 España
Abstract:
In this thesis, robust methods based on the notion of shrinkage are proposed for outlier
detection and robust regression. A collection of robust Mahalanobis distances is
proposed for multivariate outlier detection. The robust intensity and scaling factors,
In this thesis, robust methods based on the notion of shrinkage are proposed for outlier
detection and robust regression. A collection of robust Mahalanobis distances is
proposed for multivariate outlier detection. The robust intensity and scaling factors,
needed to define the shrinkage of the robust estimators used in the distances, are optimally
estimated. Some properties are investigated, such as the affine equivariance
and the breakdown value. The performance of the proposal is illustrated through
the comparison to other robust techniques from the literature, in a simulation study
and with a real example of breast cancer data. The robust alternatives are also
reviewed, highlighting their advantages and disadvantages. The behavior when the
underlying distribution is heavy-tailed or skewed, shows the appropriateness of the
proposed method when we deviate from the common assumption of normality. The
resulting high true positive rates and low false positive rates in the vast majority of
cases, as well as the significantly smaller computational time show the advantages
of the proposal.
On the other hand, a robust estimator is proposed for the parameters that characterize
the linear regression problem. It is also based on the notion of shrinkages.
A thorough simulation study is conducted to investigate the efficiency with Normal
and heavy-tailed errors, the robustness under contamination, the computational
times, the affine equivariance and breakdown value of the regression estimator. It is
compared to the classical Ordinary Least Squares (OLS) approach and the robust
alternatives from the literature, which are also briefly reviewed in the thesis. Two
classical data-sets often used in the literature and a real socio-economic data-set
about the Living Environment Deprivation (LED) of areas in Liverpool (UK), are
studied. The results from the simulations and the real data examples show the
advantages of the proposed robust estimator in regression. Also, with the LED
data-set it is also shown that the proposed robust regression method has improved
performance than machine learning techniques previously used for this data, with
the advantage of interpretability.
Furthermore, an adaptive threshold, that depends on the sample size and the
dimension of the data, is introduced for the proposed robust Mahalanobis distance based on shrinkage estimators. The cut-off is different than the classical choice of
the 0.975 chi-square quantile providing a more accurate method to detect multivariate
outliers. A simulation study is done to check the performance improvement of
the new cut-off against the classical. The adjusted quantile shows improved performance,
even when the underlying distribution is heavy-tailed or skewed. The
method is illustrated using the LED data-set, and the results demonstrate the additional
advantages of the adaptive threshold for the regression problem.[+][-]
En esta tesis, se proponen métodos robustos basados en la noción de shrinkage para
la detección de atípicos y la regresión robusta. Se propone una colección de distancias
de Mahalanobis robustas para la detección de outliers multivariantes. Los
factores de En esta tesis, se proponen métodos robustos basados en la noción de shrinkage para
la detección de atípicos y la regresión robusta. Se propone una colección de distancias
de Mahalanobis robustas para la detección de outliers multivariantes. Los
factores de intensidad y escala, necesarios para definir el shrinkage de los estimadores
robustos utilizados en las distancias, se estiman de manera óptima. Se investigan
algunas propiedades como la equivarianza afín y el breakdown value (valor de ruptura).
El desempeño de la propuesta se ilustra mediante la comparación con otras
técnicas robustas de la literatura, en un estudio de simulación y con un ejemplo
real de datos de cáncer de mama. Las alternativas robustas también se revisan,
destacando sus ventajas y desventajas. El comportamiento cuando la distribución
subyacente es de cola pesada o asimétrica, muestra lo apropiado que es el método
propuesto cuando nos apartamos de la suposición común de normalidad. Las altas
tasas de verdaderos positivos y las bajas tasas de falsos positivos, en la gran mayoría
de los casos, así como el tiempo de cómputo significativamente menor, muestran las
ventajas de la propuesta.
Por otro lado, se introduce un estimador robusto para los parámetros que caracterizan
la regresión lineal. También se basa en la noción de shrinkage. Se lleva
a cabo un estudio de simulación exhaustivo para investigar la eficiencia con errores
Normales y de cola pesada, la robustez bajo contaminación, los tiempos de
cómputo, la equivarianza afín y el valor de ruptura del estimador de regresión. Se
compara con el método Mínimos Cuadrados Ordinarios (OLS) clásico y las alternativas
sólidas de la literatura, que también se revisan brevemente en la tesis. Se
estudian dos conjuntos de datos clásicos que se utilizan a menudo en la literatura
y un conjunto de datos socioeconómicos reales sobre la privación del entorno vital
(LED) de las áreas de Liverpool (Reino Unido). Los resultados de las simulaciones y
los ejemplos de datos reales muestran las ventajas del estimador robusto propuesto
para regresión. Además, con el conjunto de datos LED también se muestra que el
método de regresión robusta propuesto presenta mejoras con respecto a las técnicas
de aprendizaje automático utilizadas anteriormente para estos datos, con la ventaja
de la interpretabilidad.
Además, se introduce un recorte adaptativo, que depende del tamaño de la muestra
y la dimensión de los datos, para la distancia robusta de Mahalanobis propuesta,
basada en estimadores shrinkage. El valor de recorte es diferente a la opción clásica
del cuantil 0.975 de la chi-cuadrado, y proporciona un método más preciso para
detectar valores atípicos multivariados. Se realiza un estudio de simulación para
verificar el rendimiento del nuevo punto de corte respecto al clásico. El cuantil ajustado
muestra un desempeño mejorado, incluso cuando la distribución subyacente es
de cola pesada o asimétrica. El método se ilustra utilizando el conjunto de datos
LED y los resultados demuestran las ventajas adicionales del recorte adaptativo para
el problema de regresión.[+][-]