Publication:
Reducción de dimensionalidad en problemas de regresión

Loading...
Thumbnail Image
Identifiers
Publication date
2016
Defense date
2016-08
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
El presente trabajo está basado en un estudio de investigación, donde lo que se pretende es demostrar que se puede reducir la dimensionalidad de los atributos de entrada en dominios de regresión, mediante técnicas de inteligencia artificial basadas en aprendizaje supervisado. Es un estudio interesante debido al crecimiento de la inteligencia artificial en la actualidad y a la progresión que se espera que tenga en los próximos años. Por lo tanto, a nivel personal se cree que todo lo que sea investigación en esta rama de la informática es sinónimo de avance en el futuro. Para llevar a cabo el estudio, se realizan una serie de experimentos sobre unos conjuntos de datos, donde se realiza una comparación entre una técnica basada en aprendizaje supervisado con una técnica cuyo objetivo es reducir la dimensionalidad de los atributos de entrada. La técnica de aprendizaje supervisado escogida son las Redes de Neuronas Artificiales (RNA), es un paradigma de aprendizaje y procesamiento automático muy interesante inspirado en el cerebro. Se trata de un sistema de interconexión de neuronas que colaboran entre sí para producir un estímulo de salida. La estructura de las redes de neuronas artificiales está formada por una capa de entrada, una o varias capas ocultas, en este proyecto únicamente se cuenta con una capa oculta; y una capa de salida; cada una de estas capas consta de neuronas conectadas entre sí. Utilizan un tipo de aprendizaje supervisado, las neuronas situadas en la capa de entrada, propagan los atributos hacia la última capa, generando un estímulo salida, el cual se compara con una salida deseada, calculando y ajustando de esta manera el error que se haya producido. La forma en la que en el presente estudio se reduce la dimensión de los atributos de entrada mediante RNA, es obteniendo las activaciones que calculan las neuronas que forman la capa oculta de la red y las entradas netas a estas neuronas; de este modo se reducen los N atributos de entrada originales a M neuronas ocultas. El algoritmo con el que se va a comparar el comportamiento de las RNA, es una técnica que en la actualidad es una de las más empleadas para reducir la dimensión de los datos, denominada Principal Component Analysis (PCA). Esta técnica realiza una transformación de los atributos de entrada obteniendo un listado con los componentes principales ordenados de mayor a menor relevancia; de este modo escogiendo los primeros componentes del listado se consigue reducir la dimensión de los atributos de entrada. Para analizar y comparar el comportamiento de estas dos técnicas, se emplea el modelo de aprendizaje automático K-Nearest Neighbors (KNN), es un algoritmo empleado tanto para clasificación como para regresión, y es de esta última manera del modo en el que se va a utilizar, ya que los dominios sobre los que se realizan los experimentos contienen salidas continuas. La forma de aprender es, que para cada patrón de entrada nuevo se escogen los K vecinos más cercanos a él del conjunto de datos de entrenamiento introducidos previamente, y se calcula la salida del nuevo dato realizando la media de las salidas de los K vecinos más cercanos. Para lograr los objetivos estipulados en el presente trabajo, se realiza para cada dominio un total de ochenta y ocho experimentos, donde los datos se van a ver reducidos en siete ocasiones de forma progresiva, desde un 50% menos de atributos de entrada hasta un 7,14% (50/7) y analizados mediante KNN teniendo en cuenta 1, 3, 5 y 7 vecinos más cercanos. De este modo, para las RNA se realizan 7 arquitecturas modificando el número de neuronas ocultas y obteniendo las activaciones de dos maneras distintas; estos dos subconjuntos de datos reducidos serán analizados mediante KNN calculando el coeficiente de determinación logrado variando el valor del parámetro K. Con el método PCA, se obtienen 7 subconjuntos de componentes principales y se aplica KNN para obtener el coeficiente de determinación logrado. Por último, se aplica KNN sobre los datos originales. Una vez realizados todos los experimentos y habiendo obtenido el coeficiente de determinación de los mismos, se realiza una comparación de los resultados para poder determinar que reducir la dimensión de los atributos de entrada mediante RNA alcanza, en la mayoría de los casos, mejores resultados que el algoritmo PCA e incluso que los propios datos originales. Se concluye, para los conjuntos de datos estudiados, que es favorable reducir la dimensión de los atributos de entrada mediante esta técnica de aprendizaje supervisado (RNA) y que en la mayoría de los casos funciona mejor que un algoritmo creado específicamente para ello PCA.
Description
Keywords
Redes neuronales, Aprendizaje
Bibliographic citation