Publication:
Análisis multivariante: soluciones eficientes e interpretables

Loading...
Thumbnail Image
Identifiers
Publication date
2015
Defense date
2015-05-18
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
En la actualidad, existe una tendencia creciente de almacenar ingentes cantidades de datos con el fin de analizar y extraer algún tipo de información útil de ellos. Sin embargo, el tratamiento de los mismos no resulta trivial y la aplicación de métodos de análisis de datos puede sufrir multitud de problemas tales como sobreajuste o problemas de multicolinealidades causados por la existencia de variables altamente correladas. Por ello, una etapa previa de extracción de características que permita reducir la dimensionalidad de los datos y eliminar dichas multicolinealidades perjudiciales entre variables es crucial para poder aplicar de manera adecuada y eficiente dichas técnicas de análisis de datos. En particular, los métodos de análisis multivariante (MVA) –que permiten extraer un nuevo conjunto de características representativas del problema– gozan de amplia popularidad y han sido aplicados con éxito en una gran cantidad de aplicaciones del mundo real. No obstante, cuando el objetivo consiste en obtener conocimiento de los datos capturados, no solo se requieren buenas prestaciones del sistema diseñado, sino también la capacidad de producir soluciones interpretables que permitan una mejor comprensión del problema. Por lo tanto, resulta deseable modificar estos métodos MVA aportándoles una especialización de las necesidades del problema con el fin de obtener dicha interpretabilidad. En esta tesis doctoral, se estudian en detalle los métodos MVA y se presenta un marco general que engloba a dichos métodos MVA –en particular, a aquellos que obtienen características ortogonales entre sí–. Este estudio en profundidad permite una extensión de dicho marco general que facilita la inclusión de restricciones adicionales con el fin de proporcionarles habilidades adicionales, como, por ejemplo, la deseada capacidad de interpretabilidad. Para demostrar la versatilidad de este marco, se proponen soluciones MVA especializadas a cuatro casos particulares que requieren una interpretación completamente distinta del problema: soluciones MVA dispersas en las características extraídas; soluciones MVA dispersas en características extraídas a partir de relaciones no lineales entre variables; soluciones MVA que permiten la selección de las variables relevantes; y soluciones MVA no negativas para el diseño supervisado de bancos de filtros. Aunque en la literatura se pueden encontrar algunas soluciones especializadas, aquí se demuestra tanto teórica como experimentalmente que presentan graves problemas tanto de inicialización como de concepto en términos de poder ser considerados auténticos métodos MVA. La validez de las propuestas presentadas en esta tesis doctoral es certificada mediante una serie de experimentos que hacen uso de datos obtenidos del mundo real.
Currently, there is a growing tendency to store large amounts of data to analyze and extract any useful information from them. However, treating them is not trivial and application of data analysis methods can suffer several problems such as overfitting or multicollinearity problems caused by the existence of highly correlated variables. Therefore, a preliminar feature extraction stage that reduces the dimensionality of the data and eliminates these harmful multicollinearities between variables is crucial to apply these techniques for data analysis in an appropriate and efficient way. In particular, multivariate analysis methods (MVA) –which allow to extract a new set of representative features of the problem– enjoy wide popularity and have been successfully applied in a large number of real-world applications. However, when the aim is to obtain knowledge of the captured data, and not just good performance of the designed system, the ability to produce interpretable solutions for a better understanding of the problem is required. Therefore, it is desirable to modify these MVA methods to provide them with specialization of problem needs to obtain such interpretability. In this thesis, we study in detail MVA methods and we present a general framework that encompasses them –in particular, those who obtain orthogonal features–. This in-depth study allows an extension of the general framework that facilitates the inclusion of additional constraints in order to provide additional properties, for example, the desired interpretability. To demonstrate the versatility of this framework, MVA specialized solutions to four particular cases that require completely different interpretation of the problem are proposed: sparse MVA solutions in the extracted features; sparse MVA solutions in extracted features from nonlinear relationships among variables; MVA solutions that allow the selection of the relevant variables; and non-negative MVA solutions for supervised design of filter banks. Although some specialized solutions can be found in the literature, here it is proven both theoretically and experimentally that they suffer serious problems of initialization and concept in terms of being considered authentic MVA methods. The legitimacy of the presented proposals in this thesis is certified through a series of experiments that use real-world data.
Description
Keywords
Análisis de datos, Análisis multivariante, MVA
Bibliographic citation
Collections