Publication:
Implementación de algoritmos de aprendizaje automático para Big Data

Loading...
Thumbnail Image
Identifiers
Publication date
2017-06-21
Defense date
2017-07-13
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
El objetivo principal de este proyecto es la implementación sobre Spark de una herramienta para análisis multivarible, que permita la optimización de los métodos de Análisis de Componentes Principales (Principal Component Analysis, PCA), Mínimos Cuadrados Parciales Ortonormalizados (Orthonormalized Partial Least Squares, OPLS) y Análisis de Correlaciones Canónicas (Canonical Correlation Analysis, CCA). Además de las versiones básicas de estos métodos, la herramienta está basada en un trabajo de publicación reciente que propone incorporar restricciones adicionales sobre la función de coste a fin de obtener soluciones más dispersas e interpretables. Por lo tanto, el trabajo se enmarca en el contexto del Big Data, del Aprendizaje Automático y, más concretamente, en el análisis multivariable. Muchos de los conjuntos de datos que requieren ser procesados provienen de plataformas en las que se tienen en cuenta un gran número de variables diferentes con el fin de medir todo aquello que pueda influir a nuestros datos en cuestión. La mayoría de las veces hay un gran número de variables que no aportan nada o casi nada de información para una tarea concreta. Además muchas de ellas pueden estar correlacionadas entre sí, por lo que resultaría muy interesante eliminar estas correlaciones y las variables innecesarias, creando un conjunto nuevo de datos. Así se reduce la dimensión de los datos, lo que se traduce en una mayor rapidez del procesado y en visualizaciones más claras, además de potenciales ventajas en términos de precisión y requisitos computacionales durante la aplicación posterior de alguna herramienta de aprendizaje automático. En resumen, el objetivo de este proyecto es la creación de una toolbox, compuesta por sus funciones e interfaz, que aborde la implementación de versiones regularizadas de PCA, CCA y OPLS. Esta toolbox funcionará de modo distribuido por lo que se realizará sobre Spark y el lenguaje de programación Python.
Description
Keywords
Big Data, Algoritmos, Aprendizaje automático, Análisis multivariable, Spark
Bibliographic citation