Publication:
Representing functional data in reproducing Kernel Hilbert spaces with applications to clustering, classification and time series problems

Loading...
Thumbnail Image
Identifiers
Publication date
2010-05
Defense date
2010-07-16
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
In modern data analysis areas such as Image Analysis, Chemometrics or Information Retrieval the raw data are often complex and their representation in Euclidean spaces is not straightforward. However most statistical data analysis techniques are designed to deal with points in Euclidean spaces and hence a representation of the data in some Euclidean coordinate system is always required as a previous step to apply multivariate analysis techniques. This process is crucial to guarantee the success of the data analysis methodologies and will be a core contribution of this thesis. In this work we will develop general data representation techniques in the framework of Functional Data Analysis (FDA) for classification and clustering problems. In Chapter 1 we motivate the problems to solve, describe the roadmap of the contributions and set up the notation of this work. In Chapter 2 we review some aspects concerning Reproducing Kernel Hilbert Spaces (RKHSs), Regularization Theory Integral Operators, Support Vector Machines and Kernel Combinations. In Chapter 3 we propose a new methodology to obtain finite-dimensional representations of functional data. The key idea is to consider each functional curve as a point in a general function space and then project these points onto a Reproducing Kernel Hilbert Space (RKHS) with the aid of Regularization theory. We will describe the projection methods, analyze its theoretical properties and develop an strategy to select appropriate RKHSs to represent the functional data. Following the functional data analysis approach, we develop in Chapter 4 a new procedure to deal with proximity (similarity or distance) matrices in classification problems by studying the connection between proximity measures and a certain class of integral operators. The idea is to come up with a methodology able to estimate an integral operator whose associated kernel function, evaluated at the sample, approximates the sample proximity matrix of the problem. To show the broad scope of application of the methodology,we will apply it to three cases: (1) classification problems where the only available information about the data is an asymmetric similarity matrix (2) partially labeled classification problems and (3) classification problems where several sources of information are available and can be combined to obtain the discrimination function. In Chapter 5 we propose an spectral framework for information fusion when the sources of information are given by a set of proximity matrices. Our approach is based on the simultaneous diagonalization of the original matrices of the problem and it represents a natural way to manage the redundant information involved in the fusion process. In particular, we define a new metric for proximity matrices and we propose a method that automatically eliminates the redundant information among a set of matrices when they are combined. We conclude the contributions of the thesis in Chapter 6 with a battery of simulated and real examples devoted to compare the performance of the proposed methodologies with the state of the art in representation methods. Finally, in Chapter 7 we include a discussion regarding the topics described above and we propose some future lines of research we believe are the natural extensions to the work developed in this thesis. ------------------------------------------------------------------------------------------------------------------------------------------------
En áreas de análisis de datos tales como el Análisis de Imágenes, la Quimiometría o la Recuperación de Información los datos son complejos y su representación en espacios Euclídeos no es directa. Sin embargo, la mayoría de los procedimientos estadísticos están diseñados para trabajar con puntos en espacios Euclídeos. Por tanto, representar los datos en un sistema Euclídeo de coordenadas es el paso previo necesario al uso de técnicas estadísticas multivariantes. Este proceso es crucial a la hora de garantizar adecuadas soluciones a nuestros problemas y será el núcleo central de las contribuciones de esta tesis. En este trabajo desarrollaremos técnicas generales de representación de datos en problemas de clasificación y conglomerados en el marco del Análisis Funcional de Datos. En el Capítulo 1 motivaremos los problemas a resolver, describiremos las contribuciones y fijaremos la notación utilizada en este trabajo. En el Capítulo 2 revisamos algunos aspectos relacionados con los espacios de Hilbert de Núcleo reproductivo, la Teoría de Regularización, Operadores integrales, Máquinas de Vectores Soporte y métodos de Combinaciones de Núcleos. En el Capítulo 3, proponemos una nueva metodología para obtener representaciones de dimensión finita de datos funcionales. La idea clave es considerar cada dato funcional como un punto en un espacio general de funciones y posteriormente proyectar estos puntos en un espacio de Hilbert de Núcleo Reproductivo con la ayuda de la teoría de Regularización. En el Capítulo 3 describiremos el método de proyección, analizaremos sus propiedades teóricas y desarrollaremos una estrategia para seleccionar un espacio apropiado en el que representar los datos funcionales. Siguiendo el enfoque de análisis de datos funcionales, desarrollamos en el Capítulo 4 un nuevo procedimiento para trabajar con matrices de proximidades (similaridades o distancias) en problemas de clasificación y conglomerados estudiando la relación entre matrices de proximidad y cierta clase de operadores integrales. La idea es desarrollar una metodología capaz de estimar un operador integral cuya núcleo, evaluado en la muestra, aproxime la matriz de proximidad. Para mostrar la utilidad de la meteodología propuesta la aplicaremos en tres casos: (1) problemas de clasificación donde la información disponible sobre los datos es una matriz de similaridades asimétrica, (2) problemas de clasificación parcialmente etiquetados y (3) problemas de clasificación donde varias fuentes de infomación están disponibles y pueden ser combinadas para obtener el clasificador. En el Capítulo 5 proponemos un marco espectral para la fusión de infomación cuando las fuentes de información vienen dadas por un conjunto de matrices de proximidades. Nuestro enfoque está basado en la diagonalización simultánea de dichas matrices y representa un modo natural de tratar con la infomación redundante involucrada en el proceso de combinación. En particular, definiremos una nueva métrica para matrices de proximidades y propondremos un método que elimina automáticamente la infomación redundante de una serie de matrices cuando son combinadas. Concluimos las contribuciones de esta tesis en el Capítulo 6 con una batería experimentos reales y simulados cuyo objetivo es comparar la metodología propuesta con el estado de arte en métodos de representatión de objetos. Finalmente, en el Capítulo 7 incluimos una discusión sobre los temas tratados en anteriormente y futuras líneas de investigación que creemos son la prolongación natural de las contribuciones de esta tesis.
Description
Keywords
Functional data analysis, Kernel Hilbert Spaces, Euclidean spaces, Time series, Análisis funcional, Espacios de Hilbert, Espacios euclídeos, Series temporales
Bibliographic citation
Collections