Publication:
Diseño e implementación de un sistema para el análisis y categorización en Twitter mediante técnicas de clasificación automática de textos

Loading...
Thumbnail Image
Identifiers
Publication date
2013
Defense date
2013-10-18
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Los SNS o servicios de redes sociales constituyen una de las mayores fuentes de información en tiempo real de Internet. Entre ellas destaca Twitter, tercera red social por número de usuarios en continuo crecimiento, cuyas características la hacen ideal para la retransmisión y propagación de información de manera instant ánea. Son los usuarios, repartidos por todo el mundo, los que contribuyen con sus tweets —mensajes de texto de hasta 140 caracteres— a crear esta ingente cantidad de datos, siendo necesario aplicar procesos automatizados de búsqueda y categorización de la información para conocer cuáles son las conversaciones que se dan entre los miembros de esta red social. Sin embargo, es el contenido de los tweets el que plantea mayores retos a los investigadores, pues su clasificación automática e incluso manual resulta bastante difícil. Ante el valor que supone conocer la opinión de la sociedad, universidades y empresas están dedicando gran cantidad de recursos al estudio y desarrollo de nuevos métodos de análisis automático de la información, haciendo de la minería de datos y especialmente, de la minería de opinión, uno de los campos con mayor proyección de esta década. Este proyecto pretende arrojar algo de luz al problema mediante el diseño e implementación de un prototipo para la captura y el análisis de los tweets, empleando técnicas de procesamiento del lenguaje natural y evaluando alguno de los algoritmos más empleados en clasificación automática de documentos.
The SNS or social networking services are a major source of real-time information on the Internet. Amongst them, Twitter stands out. The third social network by number of users is still growing and its unique features shape the proper channel to broadcast information almost instantly. Are its users, spread all over the world, those who create this huge amount of data with their tweets, text-based messages of up to 140 characters, making it necessary to develop automated search and categorization processes in order to disclose which conversations are taking place between the members of this social network. However, the content of these messages poses a great challenge to researchers due to the difficulty of their classification even using manual procedures. Given the value of such opinions representing the views of the society, universities and companies are devoting significant resources to the research and development of new methods of information analysis, making data mining and especially, opinion mining, one of the fastest-growing and most promising fields of this decade. This project aims to shed some light on that problem by designing and implementing a prototype to capture and analyse tweets using natural language processing techniques and evaluating some of the algorithms used in automatic document classification.
Description
Keywords
Ingeniería del conocimiento, Redes sociales, Twitter, Minería de datos, Categorización
Bibliographic citation