Sistema de clasificación automática sobre streams de tweets

e-Archivo Repository

Show simple item record

dc.contributor.advisor Villena Román, Julio
dc.contributor.author Godino Martínez, Alberto
dc.date.accessioned 2016-02-25T12:52:13Z
dc.date.available 2016-02-25T12:52:13Z
dc.date.issued 2014-07
dc.date.submitted 2014-07-02
dc.identifier.uri http://hdl.handle.net/10016/22363
dc.description.abstract El crecimiento de la red Social Twitter desde su aparición en el año 2006 ha sido sorprendente. En la actualidad millones de tweets son escritos y publicados al día, desde cualquier país y en cualquier idioma. El poder detectar los temas más populares (trending topics) de entre todos estos tweets nos permite conocer qué está ocurriendo en cualquier lugar del mundo, instantáneamente. De este modo, Twitter se ha convertido en una de las fuentes de información más poderosas. El presente Proyecto de Fin de Carrera tiene como objetivo conocer la importancia que están adquiriendo las técnicas de data mining (conjunto de técnicas que permiten extraer información relevante y desconocida de manera automática dentro de grandes volúmenes de información), estudiar en profundidad algunas de las técnicas de clasificación automática supervisadas y no supervisadas más importantes y finalmente diseñar, desarrollar y estudiar un clasificador automático de textos que haga uso de algoritmos diferentes pertenecientes al campo de aprendizaje no supervisado. Dicho clasificador se aplicará sobre una colección de miles de tweets con el objetivo de encontrar los temas más importantes o trending topics de dicha colección. Por último, se compararán las prestaciones de cada algoritmo utilizado en el desarrollo del clasificador. El sistema empleado se basa fundamentalmente en encontrar el grado de similitud entre los tweets tras procesarlos usando técnicas propias del Procesamiento del Lenguaje Natural para posteriormente y usando dos algoritmos de clustering diferentes (KMeans y DBSCAN) obtener la clasificación. El conseguir un sistema automático de clasificación para esta tarea es muy importante puesto que evitará la intervención humana y hará factible el procesamiento de la inmensa cantidad de información que la red social Twitter genera a diario.
dc.description.abstract Since Twitter appeared in 2006, it has experienced a huge growth. Today millions of tweets are written and posted every day. Detecting trending topics allow us to know what is happening everywhere. This makes Twitter one of the most powerful sources of information. The aim of this final project is to know the increasing importance of data mining techniques, study deeply some of the automatic classification techniques and finally design, develop and study an automatic classifier based on two different algorithms in order to find the trending topics over thousands of tweets. The developed system relies on finding the similarity between tweets which previously were preprocessed using Natural Language Processing techniques and finally the classification will be got thanks to two different algorithms (DBSCAN and KMeans). Getting an automatic classification, specifically for this task, is very important because it will make things easier and faster and it will avoid the problems that could appear because of the human interaction. With this project, different techniques will be studied, compared and checked, getting a better understanding in that way in Artificial Intelligence concepts, specifically in the Automatic classification and Natural Language Processing issues.
dc.format.mimetype application/pdf
dc.language.iso spa
dc.rights Atribución-NoComercial-SinDerivadas 3.0 España
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject.other Redes sociales
dc.subject.other Twitter
dc.subject.other Clasificación automática de textos
dc.subject.other Recuperación de la información
dc.subject.other Procesamiento del lenguaje natural
dc.title Sistema de clasificación automática sobre streams de tweets
dc.type masterThesis
dc.subject.eciencia Telecomunicaciones
dc.rights.accessRights openAccess
dc.description.degree Ingeniería de Telecomunicación
dc.contributor.departamento Universidad Carlos III de Madrid. Departamento de. Ingeniería Telemática
 Find Full text

Files in this item

*Click on file's image for preview. (Embargoed files's preview is not supported)


The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record