Publication: Statistical distances and probability metrics for multivariate data, ensembles and probability distributions
Loading...
Identifiers
Publication date
2015-06
Defense date
2015-06-29
Advisors
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
The use of distance measures in Statistics is of fundamental importance in solving practical problems, such us hypothesis testing, independence contrast, goodness of fit tests, classification tasks, outlier detection and density estimation methods, to name just a few.
The Mahalanobis distance was originally developed to compute the distance from a point to the center of a distribution taking into account the distribution of the data, in this case the normal distribution. This is the only distance measure in the statistical literature that takes into account the probabilistic information of the data. In this thesis we address the study of different distance measures that share a fundamental characteristic: all the proposed distances incorporate probabilistic information.
The thesis is organized as follows: In Chapter 1 we motivate the problems addressed in this thesis. In Chapter 2 we present the usual definitions and properties of the different distance measures for multivariate data and for probability distributions treated in the statistical literature.
In Chapter 3 we propose a distance that generalizes the Mahalanobis distance to the case where the distribution of the data is not Gaussian. To this aim, we introduce a Mercer Kernel based on the distribution of the data at hand. The Mercer Kernel induces distances from a point to the center of a distribution. In this chapter we also present a plug-in estimator of the distance that allows us to solve classification and outlier detection problems in an efficient way.
In Chapter 4 of this thesis, we present two new distance measures for multivariate data that incorporate the probabilistic information contained in the sample. In this chapter we also introduce two estimation methods for the proposed distances and we study empirically their convergence. In the experimental section of Chapter 4 we solve classification problems and obtain better results than several standard classification methods in the literature of discriminant analysis.
In Chapter 5 we propose a new family of probability metrics and we study its theoretical properties. We introduce an estimation method to compute the proposed distances that is based on the estimation of the level sets, avoiding in this way the difficult task of density estimation. In this chapter we show that the proposed distance is able to solve hypothesis tests and classification problems in general contexts, obtaining better results than other standard methods in statistics.
In Chapter 6 we introduce a new distance for sets of points. To this end, we define a dissimilarity measure for points by using a Mercer Kernel that is extended later to a Mercer Kernel for sets of points. In this way, we are able to induce a dissimilarity index for sets of points that it is used as an input for an adaptive k-mean clustering algorithm. The proposed clustering algorithm considers an alignment of the sets of points by taking into account a wide range of possible wrapping functions. This chapter presents an application to clustering neuronal spike trains, a relevant problem in neural coding.
Finally, in Chapter 7, we present the general conclusions of this thesis and the future research lines.
En EstadÃstica el uso de medidas de distancia resulta de vital importancia a la hora de resolver problemas de Ãndole práctica. Algunos métodos que hacen uso de distancias en estadÃstica son: Contrastes de hipótesis, de independencia, de bondad de ajuste, métodos de clasificación, detección de atÃpicos y estimación de densidad, entre otros. La distancia de Mahalanobis, que fue diseñada originalmente para hallar la distancia de un punto al centro de una distribución usando información de la distribución ambiente, en este caso la normal. Constituye el único ejemplo existente en estadÃstica de distancia que considera información probabilÃstica. En esta tesis abordamos el estudio de diferentes medidas de distancia que comparten una caracterÃstica en común: todas ellas incorporan información probabilÃstica. El trabajo se encuentra organizado de la siguiente manera: En el CapÃtulo 1 motivamos los problemas abordados en esta tesis. En el CapÃtulo 2 de este trabajo presentamos las definiciones y propiedades de las diferentes medidas de distancias para datos multivariantes y para medidas de probabilidad existentes en la literatura. En el CapÃtulo 3 se propone una distancia que generaliza la distancia de Mahalanobis al caso en que la distribución de los datos no es Gaussiana. Para ello se propone un Núcleo (kernel) de Mercer basado en la densidad (muestral) de los datos que nos confiere la posibilidad de inducir distancias de un punto a una distribución. En este capÃtulo presentamos además un estimador plug-in de la distancia que nos permite resolver, de manera práctica y eficiente, problemas de detección de atÃpicos y problemas de clasificación mejorando los resultados obtenidos al utilizar otros métodos de la literatura. Continuando con el estudio de medidas de distancia, en el CapÃtulo 4 de esta tesis se proponen dos nuevas medidas de distancia para datos multivariantes incorporando información probabilÃstica contenida en la muestra. En este capÃtulo proponemos también dos métodos de estimación eficientes para las distancias propuestas y estudiamos de manera empÃrica su convergencia. En la sección experimental del CapÃtulo 4 se resuelven problemas de clasificación con las medidas de distancia propuestas, mejorando los resultados obtenidos con procedimientos habitualmente utilizados en la literatura de análisis discriminante. En el CapÃtulo 5 proponemos una familia de distancias entre medidas de probabilidad. Se estudian también las propiedades teóricas de la familia de métricas propuesta y se establece un método de estimación de las distancias basado en la estimación de los conjuntos de nivel (definidos en este capÃtulo), evitando asà la estimación directa de la densidad. En este capÃtulo se resuelven diferentes problemas de Ãndole práctica con las métricas propuestas: Contraste de hipótesis y problemas de clasificación en diferentes contextos. Los resultados empÃricos de este capÃtulo demuestran que la distancia propuesta es superior a otros métodos habituales de la literatura. Para finalizar con el estudio de distancias, en el CapÃtulo 6 se propone una medida de distancia entre conjuntos de puntos. Para ello, se define una medida de similaridad entre puntos a través de un kernel de Mercer. A continuación se extiende el kernel para puntos a un kernel de Mercer para conjuntos de puntos. De esta forma, el Núcleo de Mercer para conjuntos de puntos es utilizado para inducir una métrica (un Ãndice de disimilaridad) entre conjuntos de puntos. En este capÃtulo se propone un método de clasificación por k-medias que utiliza la métrica propuesta y que contempla, además, la posibilidad de alinear los conjuntos de puntos en cada etapa de la construcción de los clusters. En este capÃtulo presentamos una aplicación relativa al estudio de la decodificación neuronal, donde utilizamos el método propuesto para encontrar clusters de neuronas con patrones de funcionamiento similares. Finalmente en el CapÃtulo 7 se presentan las conclusiones generales de este trabajo y las futuras lÃneas de investigación.
En EstadÃstica el uso de medidas de distancia resulta de vital importancia a la hora de resolver problemas de Ãndole práctica. Algunos métodos que hacen uso de distancias en estadÃstica son: Contrastes de hipótesis, de independencia, de bondad de ajuste, métodos de clasificación, detección de atÃpicos y estimación de densidad, entre otros. La distancia de Mahalanobis, que fue diseñada originalmente para hallar la distancia de un punto al centro de una distribución usando información de la distribución ambiente, en este caso la normal. Constituye el único ejemplo existente en estadÃstica de distancia que considera información probabilÃstica. En esta tesis abordamos el estudio de diferentes medidas de distancia que comparten una caracterÃstica en común: todas ellas incorporan información probabilÃstica. El trabajo se encuentra organizado de la siguiente manera: En el CapÃtulo 1 motivamos los problemas abordados en esta tesis. En el CapÃtulo 2 de este trabajo presentamos las definiciones y propiedades de las diferentes medidas de distancias para datos multivariantes y para medidas de probabilidad existentes en la literatura. En el CapÃtulo 3 se propone una distancia que generaliza la distancia de Mahalanobis al caso en que la distribución de los datos no es Gaussiana. Para ello se propone un Núcleo (kernel) de Mercer basado en la densidad (muestral) de los datos que nos confiere la posibilidad de inducir distancias de un punto a una distribución. En este capÃtulo presentamos además un estimador plug-in de la distancia que nos permite resolver, de manera práctica y eficiente, problemas de detección de atÃpicos y problemas de clasificación mejorando los resultados obtenidos al utilizar otros métodos de la literatura. Continuando con el estudio de medidas de distancia, en el CapÃtulo 4 de esta tesis se proponen dos nuevas medidas de distancia para datos multivariantes incorporando información probabilÃstica contenida en la muestra. En este capÃtulo proponemos también dos métodos de estimación eficientes para las distancias propuestas y estudiamos de manera empÃrica su convergencia. En la sección experimental del CapÃtulo 4 se resuelven problemas de clasificación con las medidas de distancia propuestas, mejorando los resultados obtenidos con procedimientos habitualmente utilizados en la literatura de análisis discriminante. En el CapÃtulo 5 proponemos una familia de distancias entre medidas de probabilidad. Se estudian también las propiedades teóricas de la familia de métricas propuesta y se establece un método de estimación de las distancias basado en la estimación de los conjuntos de nivel (definidos en este capÃtulo), evitando asà la estimación directa de la densidad. En este capÃtulo se resuelven diferentes problemas de Ãndole práctica con las métricas propuestas: Contraste de hipótesis y problemas de clasificación en diferentes contextos. Los resultados empÃricos de este capÃtulo demuestran que la distancia propuesta es superior a otros métodos habituales de la literatura. Para finalizar con el estudio de distancias, en el CapÃtulo 6 se propone una medida de distancia entre conjuntos de puntos. Para ello, se define una medida de similaridad entre puntos a través de un kernel de Mercer. A continuación se extiende el kernel para puntos a un kernel de Mercer para conjuntos de puntos. De esta forma, el Núcleo de Mercer para conjuntos de puntos es utilizado para inducir una métrica (un Ãndice de disimilaridad) entre conjuntos de puntos. En este capÃtulo se propone un método de clasificación por k-medias que utiliza la métrica propuesta y que contempla, además, la posibilidad de alinear los conjuntos de puntos en cada etapa de la construcción de los clusters. En este capÃtulo presentamos una aplicación relativa al estudio de la decodificación neuronal, donde utilizamos el método propuesto para encontrar clusters de neuronas con patrones de funcionamiento similares. Finalmente en el CapÃtulo 7 se presentan las conclusiones generales de este trabajo y las futuras lÃneas de investigación.
Description
Keywords
Distance measures, Mahalanobis distance, Multivariate data, Probability distribution