Implementación de algoritmos de aprendizaje automático para Big Data

García-Tembleque Béjar, Alba

Publication:
Implementación de algoritmos de aprendizaje automático para Big Data

Identifiers

URI: https://hdl.handle.net/10016/27534

Files

TFG_Alba_Garcia-Tembleque_Bejar_2017.pdf (1.6 MB)

Publication date

2017-06-21

Defense date

2017-07-13

Authors

García-Tembleque Béjar, Alba

Advisors

Arenas García, Jerónimo

Impact

Export

Abstract

El objetivo principal de este proyecto es la implementación sobre Spark de una herramienta para análisis multivarible, que permita la optimización de los métodos de Análisis de Componentes Principales (Principal Component Analysis, PCA), Mínimos Cuadrados Parciales Ortonormalizados (Orthonormalized Partial Least Squares, OPLS) y Análisis de Correlaciones Canónicas (Canonical Correlation Analysis, CCA). Además de las versiones básicas de estos métodos, la herramienta está basada en un trabajo de publicación reciente que propone incorporar restricciones adicionales sobre la función de coste a fin de obtener soluciones más dispersas e interpretables. Por lo tanto, el trabajo se enmarca en el contexto del Big Data, del Aprendizaje Automático y, más concretamente, en el análisis multivariable. Muchos de los conjuntos de datos que requieren ser procesados provienen de plataformas en las que se tienen en cuenta un gran número de variables diferentes con el fin de medir todo aquello que pueda influir a nuestros datos en cuestión. La mayoría de las veces hay un gran número de variables que no aportan nada o casi nada de información para una tarea concreta. Además muchas de ellas pueden estar correlacionadas entre sí, por lo que resultaría muy interesante eliminar estas correlaciones y las variables innecesarias, creando un conjunto nuevo de datos. Así se reduce la dimensión de los datos, lo que se traduce en una mayor rapidez del procesado y en visualizaciones más claras, además de potenciales ventajas en términos de precisión y requisitos computacionales durante la aplicación posterior de alguna herramienta de aprendizaje automático. En resumen, el objetivo de este proyecto es la creación de una toolbox, compuesta por sus funciones e interfaz, que aborde la implementación de versiones regularizadas de PCA, CCA y OPLS. Esta toolbox funcionará de modo distribuido por lo que se realizará sobre Spark y el lenguaje de programación Python.

Keywords

Big Data, Algoritmos, Aprendizaje automático, Análisis multivariable, Spark

Collections

Trabajos Fin de Grado Escuela Politécnica Superior

Full item page

Publication:
Implementación de algoritmos de aprendizaje automático para Big Data

Identifiers

Files

Publication date

Defense date

Authors

Advisors

Tutors

Journal Title

Journal ISSN

Volume Title

Publisher

Impact

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Collections

Publication: Implementación de algoritmos de aprendizaje automático para Big Data

Identifiers

Files

Publication date

Defense date

Authors

Advisors

Tutors

Journal Title

Journal ISSN

Volume Title

Publisher

Impact

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Collections

Publication:
Implementación de algoritmos de aprendizaje automático para Big Data