Publication:
Análisis de polaridad en textos escritos en inglés y español

Loading...
Thumbnail Image
Identifiers
Publication date
2014
Defense date
2014-11-17
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
En la actualidad encontramos en Internet multitud de comentarios sobre una gran cantidad de temas, desde películas y libros hasta hoteles, restaurantes e incluso noticias. Todas estas opiniones influyen en quien las lee y muchas veces para tomar decisiones se da más prioridad a lo que se ha dicho sobre el tema, ya sea una película o un coche, que a las especificaciones. Tal cantidad de información muchas veces no está graduada, por lo que se requeriría leer todas las críticas para poder sacar una conclusión general sobre el asunto destacado. En este contexto, la idea de conseguir un motor capaz de dar la opinión sobre un tópico sin necesidad de procesar cada comentario por separado ha sido la motivación principal para la realización de este proyecto. En concreto, el proyecto se ha centrado en buscar herramientas automáticas para discriminar textos en español entre positivos y negativos. Sin embargo, dado que existen una gran cantidad de bases de datos adecuadas para este objetivo en el idioma inglés, primero se han estudiado y experimentado con diversas técnicas sobre este idioma, para posteriormente aplicar lo aprendido al caso del español. Gran parte de los sistemas descritos en el estado del arte sobre trabajos previos utilizan una herramienta llamada WEKA que es muy potente a la hora de implementar de forma eficiente diversos algoritmos de aprendizaje máquina y que puede utilizarse para la clasificación de textos. Básicamente, su funcionamiento consiste en la generación de una clasificación de las palabras dependiendo de la clase a la que pertenecen mediante la utilización de filtros. En el desarrollo de este proyecto se han aplicado las ventajas proporcionadas por WEKA en la realización de experimentos, variando tanto la creación de reglas para organizar las palabras según sus pesos como los clasificadores. Así se ha conseguido acotar la manera de reconocer la polaridad de un texto entre positivo o negativo y tener un punto de partida desde el que poder mejorar el sistema y ampliar el rango de sentimientos que se podrían inferir a partir de los textos. Para los experimentos se han considerado distintos clasificadores: Naive Bayes, Naive Bayes Multinomial, Naive Bayes Multinomial Updateable y SMO. Y los filtros aplicados previamente a clasificarlos han sido una concatenación de uno no supervisado StringToWordVector y otro supervisado AttributeSelection provistos por WEKA para crear las reglas.
Nowadays, there can be found in the Internet many opinions about a plethora of topics, among them, films and books or hotels and restaurants and even news. Every one of these opinions have an influence over the reader and usually to make a decision about an issue, no matter what, a film or a car, they are taken in more consideration than the specifications. This amount of data it is not often ranked, therefore it would be needed to read all the comments to get a general conclusion over the topic. In this situation, the idea of finding a way to be able to give an opinion over an issue without the necessity to go through every comment alone was the main motivation to complete this project. More precisely the project has been focus in finding automatic tools to infer positive or negative from a text written in Spanish. However, as there are more data bases to accomplish this objective in English, first there have been studied and experimented in this language to apply what was learnt in the Spanish one. Most of the described systems in the state of art use WEKA, which is a very powerful tool to efficiently implement machine learning algorithms that can be used in text classification. Basically, it consists in the generation of a classification of words between the considered classes making rules with filters. In this project the experiments have been done varying the rules that organizes and weight the words and the classifiers taking the advantages of the tool WEKA, to narrow the way to recognize the polarity of a text between positive and negative and get a starting point from which to improve the system and enlarge the type of sentiments that could be inferred from texts. The classifiers used in the experiments have been: Naïve Bayes, Naïve Bayes Multinomial, Naïve Bayes Multinomial Updateable and SMO. And the filters applied previously have been a concatenation of one unsupervised StringToWordVector and a supervised AttributeSelection provided by WEKA to create the rules.
Description
Keywords
Polaridad, Discriminación de textos, Análisis automático, WEKA
Bibliographic citation