Publication:
Diseño e Implementación de una arquitectura Big-Data para el sistema de taxis de Nueva York

Loading...
Thumbnail Image
Identifiers
Publication date
2017-06
Defense date
2017-07-13
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Big data ha sido uno de los términos tecnológicos que más importancia ha ganado durante los últimos años. Debido al proceso de digitalización de la sociedad y de la economía que se ha producido y se está produciendo gran cantidad de datos se generan cada día y son muchas las empresas y entidades que los almacenan para intentar sacar provecho de ellos. Estos datos surgen desde la propia actividad de las empresas hasta de mediciones en la naturaleza, pasando por los recogidos de los smartphones, sensores, wearables o dispositivos conectados, generándose millones de terabytes de nuevos datos al día. De la necesidad de organizar y procesar todos ellos para obtener información valiosa que pueda generar valor surge el término big data, que se re ere a aquellos datos que son tan grandes o complejos que las aplicaciones de procesado de datos tradicionales no serían capaces de tratarlos. Por ello, las tecnologías y herramientas big data permiten el tratado de este tipo de datos de una manera más rápida y e ciente, ampliando las posibilidades de trabajo con dicha información. El gran auge de este sector durante los últimos años ha permitido el desarrollo de importantes mejoras que van desde herramientas para el análisis en tiempo real hasta la creación de nuevas arquitecturas para optimizar el ujo y almacenamiento de los datos. Además, este desarrollo ha permitido el abaratamiento de la tecnología y la creación de empresas que ofrecen a otras servicios de big data, provocando el interés de un gran número de empresas de los diferentes sectores de la economía, que ven una oportunidad para sus negocios en el análisis de datos. En este proyecto nos centraremos en el sector del transporte, más concretamente, en el del taxi donde diseñaremos y compararemos diferentes sistemas big data que nos permitan cargar, procesar y analizar los datos de los viajes en la ciudad de Nueva York mediante el uso de las herramientas Apache Hadoop y Apache Spark.
Big data has been one of the technological terms which more relevance has gained during the recent years. This has been caused because of the digital transformation process that is taking place nowadays and which is the main reason of the great quantity of data that is being generated every day. Some organizations and business, increasingly each day, are storing and trying to get some benefit of them. The source of this data very diverse, it can come from the activity generated by the business, from the devices used by people, like smartphones, wearables and connected devices, to measures taken in the nature. Millions of terabytes of new data is generated every day. Because the necessity of organizing and processing this data to obtain valuable information, the term big data, which refers to the kind of data which is so big or so complex to the traditional tools to threat it, comes up. So that, big data technologies and tools allow this kind of processing in a much efficient and faster way, increasing the working possibilities with it. The growth of this sector during the last years has allowed the development of a wide range of improvements from tools that allow real time analysis to new file and system architectures to save space and increase the effi ciency. In this project, we are going to focus in the transport sector, specifi cally, we are going to process and analyse the trips made by the yellow taxis during the year 2013 in the city of New York. Some big data architectures will be design and implemented using Apache Spark and Apache Hadoop. After the implementation, they will be compared and their results studied.
Description
Keywords
Big Data, Apache, Gestión de datos, Sector transporte
Bibliographic citation