Publication:
Análisis de componentes principales : versiones dispersas y robustas al ruido impulsivo

Loading...
Thumbnail Image
Identifiers
Publication date
2012-04-25
Defense date
2012-04-25
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
El análisis de componentes principales (“Principal Component Analysis”, PCA) es un método de extracción de características no supervisado ámpliamente usado en la actualidad. Mediante esta técnica se pueden procesar un extenso conjunto de datos y reducir su dimensionalidad con una pérdida mínima de información. Sin embargo, este método presenta algunas desventajas como la dificultad de análisis de los datos resultantes o una función de coste poco robusta frente al ruido. Partiendo de la formulación estándar del PCA, se desarrollan y evalúan dos extensiones del mismo que buscarán paliar algunas de sus deficiencias. La primera de las versiones propuestas forzará dispersión sobre los vectores de proyección obtenidos, para así mejorar la interpretabilidad de la solución obtenida. Con este fin, buscará que los vectores de proyección contengan el mayor número de coeficientes nulos. De esta forma cada vector de proyección solo dependerá de unas pocas variables de entrada y se conocerá como influye cada variable de entrada en los datos de salida. La segunda versión que se enunciará modificará la función de coste del PCA original por una más robusta frente al ruido impulsivo. Se utilizará la misma función de coste que en las máquinas soporte de vectores, la función “ε-insensible”. Para completar el estudio de estas dos extensiones se realizarán varios experimentos, comparando sus resultados con los del PCA original. ___________________________________________________________________________________________________________________________
The Principal Component Analysis (PCA) is a non supervised feature extraction method widely used nowadays. Through this technique is possible to process a large dataset, reducing its dimension with a minimum loss of information. However, this method presents some drawbacks such as the difficulty to analyze the provided results or the lack of robustness against impulsive noise.. Building on the standard formulation of the PCA, this final degree project will introduce and evaluate two extensions, which aim to overcome some of its limitations. The first proposed extension will force sparsity over the projection vectors so that the interpretability of the solution is enhanced. With this purpose, this new approach will make the projection vectors present a large number of zero coefficients. Therefore, each projection vector will only depend on a few input variables, making easier analyze the influence of each input feature over the output data. The second extension relies on modifying the standard PCA cost function to provide the method robustness against impulsive noise. This new cost function will be the well-known "ε-insensitive" function employed by the Support Vector Machines. To complete this study, the performance of both proposals will be analyzed in detail over several experiments, comparing their results with those of the standard PCA.
Description
Keywords
Análisis de componentes principales, Análisis de datos, Inteligencia artificial, Aprendizaje máquina, Extracción de datos
Bibliographic citation