Publication: Minería de texto en redes sociales
Loading...
Identifiers
Publication date
2019-06
Defense date
2019-07-03
Authors
Advisors
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
En este trabajo de fin de grado se han realizado varios estudios y experimentos
relacionados con la minería de dados en las redes sociales, más concretamente sobre
Twitter. La minería de texto, a día de hoy, es una de las herramientas más importantes y
que más está creciendo en el ámbito de extracción y análisis de información.
La extracción de información útil de los datos es clave en muchos aspectos, pero los más
destacables y por los que está sufriendo una gran evolución es por su aportación al sector
empresarial. El análisis de los datos generados por las empresas, tanto en su producción
como en el funcionamiento interno, ayudan a estas a tomar decisiones sobre la mejora
interna y, su fijación y consecución de objetivos.
Respecto a la minería de texto en las redes sociales, mucha de la información que circula
en el entorno actual de la sociedad proviene de las redes sociales, son una fuente
incombustible generando información, más concretamente textos. Estos textos generados
por los usuarios de las redes sociales muestran de forma subjetiva los temas de actualidad
o de mayor relevancia del momento. Por esto mismo, analizar dichas opiniones puede dar
información importante sobre cómo es la sociedad.
Con el fin de estudiar la minería de datos en diferentes ámbitos, este trabajo se ha dividido
en diferentes tareas. Primeramente, se implementó un clasificador de textos de confianza,
realizando experimentos con diferentes algoritmos clasificadores y conjuntos de
instancias. Los conjuntos de datos están formados por instancias de cuatro temas
generales como son: la política, el deporte, la tecnología y la economía. Además, con
estos mismos conjuntos se decidió realizar un estudio de la relación entre las instancias
de forma no informada con la tarea de aprendizaje no supervisada, agrupamiento.
Otra parte de este trabajo se centra en el análisis del sentimiento de los usuarios de Twitter
para obtener las impresiones de la sociedad española sobre los partidos políticos que la
representan. Una vez analizados los resultados y haber clasificado las opiniones en
positivas, negativas o neutras se intentaron explicar los resultados obtenidos mediante la
relación con eventos ocurridos en el ámbito político.
Finalmente, respecto a la clasificación, se obtuvo un clasificador basado en Naive Bayes
con un 98.42% de acierto al clasificar los tweets relacionadas con la política, economía,
deportes y tecnología. Sobre el agrupamiento, no se pudieron extraer conclusiones claras
dados los resultados obtenidos, los cuales son comprensibles dada la naturaleza de la tarea
desarrollada. En el análisis del sentimiento se relacionaron varios resultados obtenidos de
las opiniones de los usuarios de Twitter con eventos políticos ocurridos el mismo día de
la recopilación de datos. Este hecho respalda que, mediante esta herramienta se pueden
conocer las opiniones de los usuarios con una certeza y seguridad considerable.
Nowadays, we have access to a large amount of data. This is now possible thanks to the technology and the tools that have been develop, which offer new opportunities to society, both personally and at the company level. Our behaviors in social networks, such as: hashtags that we use, searches we make, likes we give to publications, or retweets; create a digital mark or trail that facilitate how the user is, their concerns, interests, hobbies or desires. The current way of analyzing all those data that users contribute without realizing is the sentiment analysis. Through this tool you can analyze the opinions or impressions of a user on a specific topic, a service, a product or your political preference, as will be seen later on and that will be analyzed in this work. On the other hand, so much data and information must be processed, grouped and classified. Here the automatic classification and grouping processes come into play. The concept of Big Data, and this massive generation of data that exists in a global way, develops new methods and techniques to perform a correct analysis, management and storage of data. Increasing interest is shown by the data and its analysis for extraction of useful information, given that this analysis and treatment is fundamental to make predictions, detect patterns or help companies make decisions. These techniques have taken on greater importance in society at all levels in past years. The text is one of the most used ways to formalize the data. Added to this is the fact that the largest sources of data today are large companies and social networks, since they are platforms that operate globally and internationally. Text mining is one of the branches of computational linguistics that seeks to obtain information and knowledge from data sets that, in principle, do not have an order or are not ready at origin to transmit that information. In addition, it is a key technique in a world like the one in which data are continuously collected from different perspectives and from many different aspects of all the activities of human beings.
Nowadays, we have access to a large amount of data. This is now possible thanks to the technology and the tools that have been develop, which offer new opportunities to society, both personally and at the company level. Our behaviors in social networks, such as: hashtags that we use, searches we make, likes we give to publications, or retweets; create a digital mark or trail that facilitate how the user is, their concerns, interests, hobbies or desires. The current way of analyzing all those data that users contribute without realizing is the sentiment analysis. Through this tool you can analyze the opinions or impressions of a user on a specific topic, a service, a product or your political preference, as will be seen later on and that will be analyzed in this work. On the other hand, so much data and information must be processed, grouped and classified. Here the automatic classification and grouping processes come into play. The concept of Big Data, and this massive generation of data that exists in a global way, develops new methods and techniques to perform a correct analysis, management and storage of data. Increasing interest is shown by the data and its analysis for extraction of useful information, given that this analysis and treatment is fundamental to make predictions, detect patterns or help companies make decisions. These techniques have taken on greater importance in society at all levels in past years. The text is one of the most used ways to formalize the data. Added to this is the fact that the largest sources of data today are large companies and social networks, since they are platforms that operate globally and internationally. Text mining is one of the branches of computational linguistics that seeks to obtain information and knowledge from data sets that, in principle, do not have an order or are not ready at origin to transmit that information. In addition, it is a key technique in a world like the one in which data are continuously collected from different perspectives and from many different aspects of all the activities of human beings.
Description
Keywords
Minería de texto, Redes sociales, Twitter, Análisis de datos, Clasificadores, Desarrollo de herramientas