Análisis de polaridad en textos escritos en inglés y español

e-Archivo Repository

Show simple item record

dc.contributor.advisor Gallardo Antolín, Ascensión
dc.contributor.author Plaza Sacarrera, Lucía
dc.date.accessioned 2016-01-25T14:54:14Z
dc.date.available 2016-01-25T14:54:14Z
dc.date.issued 2014
dc.date.submitted 2014-11-17
dc.identifier.uri http://hdl.handle.net/10016/22213
dc.description.abstract En la actualidad encontramos en Internet multitud de comentarios sobre una gran cantidad de temas, desde películas y libros hasta hoteles, restaurantes e incluso noticias. Todas estas opiniones influyen en quien las lee y muchas veces para tomar decisiones se da más prioridad a lo que se ha dicho sobre el tema, ya sea una película o un coche, que a las especificaciones. Tal cantidad de información muchas veces no está graduada, por lo que se requeriría leer todas las críticas para poder sacar una conclusión general sobre el asunto destacado. En este contexto, la idea de conseguir un motor capaz de dar la opinión sobre un tópico sin necesidad de procesar cada comentario por separado ha sido la motivación principal para la realización de este proyecto. En concreto, el proyecto se ha centrado en buscar herramientas automáticas para discriminar textos en español entre positivos y negativos. Sin embargo, dado que existen una gran cantidad de bases de datos adecuadas para este objetivo en el idioma inglés, primero se han estudiado y experimentado con diversas técnicas sobre este idioma, para posteriormente aplicar lo aprendido al caso del español. Gran parte de los sistemas descritos en el estado del arte sobre trabajos previos utilizan una herramienta llamada WEKA que es muy potente a la hora de implementar de forma eficiente diversos algoritmos de aprendizaje máquina y que puede utilizarse para la clasificación de textos. Básicamente, su funcionamiento consiste en la generación de una clasificación de las palabras dependiendo de la clase a la que pertenecen mediante la utilización de filtros. En el desarrollo de este proyecto se han aplicado las ventajas proporcionadas por WEKA en la realización de experimentos, variando tanto la creación de reglas para organizar las palabras según sus pesos como los clasificadores. Así se ha conseguido acotar la manera de reconocer la polaridad de un texto entre positivo o negativo y tener un punto de partida desde el que poder mejorar el sistema y ampliar el rango de sentimientos que se podrían inferir a partir de los textos. Para los experimentos se han considerado distintos clasificadores: Naive Bayes, Naive Bayes Multinomial, Naive Bayes Multinomial Updateable y SMO. Y los filtros aplicados previamente a clasificarlos han sido una concatenación de uno no supervisado StringToWordVector y otro supervisado AttributeSelection provistos por WEKA para crear las reglas.
dc.description.abstract Nowadays, there can be found in the Internet many opinions about a plethora of topics, among them, films and books or hotels and restaurants and even news. Every one of these opinions have an influence over the reader and usually to make a decision about an issue, no matter what, a film or a car, they are taken in more consideration than the specifications. This amount of data it is not often ranked, therefore it would be needed to read all the comments to get a general conclusion over the topic. In this situation, the idea of finding a way to be able to give an opinion over an issue without the necessity to go through every comment alone was the main motivation to complete this project. More precisely the project has been focus in finding automatic tools to infer positive or negative from a text written in Spanish. However, as there are more data bases to accomplish this objective in English, first there have been studied and experimented in this language to apply what was learnt in the Spanish one. Most of the described systems in the state of art use WEKA, which is a very powerful tool to efficiently implement machine learning algorithms that can be used in text classification. Basically, it consists in the generation of a classification of words between the considered classes making rules with filters. In this project the experiments have been done varying the rules that organizes and weight the words and the classifiers taking the advantages of the tool WEKA, to narrow the way to recognize the polarity of a text between positive and negative and get a starting point from which to improve the system and enlarge the type of sentiments that could be inferred from texts. The classifiers used in the experiments have been: Naïve Bayes, Naïve Bayes Multinomial, Naïve Bayes Multinomial Updateable and SMO. And the filters applied previously have been a concatenation of one unsupervised StringToWordVector and a supervised AttributeSelection provided by WEKA to create the rules.
dc.format.mimetype application/pdf
dc.language.iso spa
dc.rights Atribución-NoComercial-SinDerivadas 3.0 España
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject.other Polaridad
dc.subject.other Discriminación de textos
dc.subject.other Análisis automático
dc.subject.other WEKA
dc.title Análisis de polaridad en textos escritos en inglés y español
dc.type masterThesis
dc.subject.eciencia Telecomunicaciones
dc.rights.accessRights openAccess
dc.description.degree Ingeniería de Telecomunicación
dc.contributor.departamento Universidad Carlos III de Madrid. Departamento de. Teoría de la Señal y Comunicaciones
 Find Full text

Files in this item

*Click on file's image for preview. (Embargoed files's preview is not supported)


The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record