Publication:
Aplicación para la desambiguación de entidades en tiempo real usando la plataforma S4

Loading...
Thumbnail Image
Identifiers
Publication date
2014-02
Defense date
2014-02-12
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
La clasificación de la información siempre ha desempeñado un papel crucial de cara al análisis, la búsqueda y la indexación de contenidos. Dada la gran cantidad de datos que se pueden llegar a manejar en la actualidad en diversos ámbitos, existe la necesidad de realizar dicha tarea de forma exhaustiva y automatizada. Además, la generación y distribución de la información en tiempo real, hace que dicha tarea se complique bastante, ya que se exigirá al clasificador un procesamiento rápido, fiable y escalable, a la par que eficaz. En este proyecto se afronta la problemática concreta de desambiguar menciones a entidades ambiguas, presentes en documentos cuya fuente es un flujo en tiempo real, con todas las dificultades que ello supone. El objetivo es implementar una aplicación que consiga solventar dicha problemática mediante aprendizaje, de la forma más eficiente y sencilla posible. Para resolver el problema de la desambiguación de entidades propiamente dicha, se sondearon los algoritmos de aprendizaje dedicados a clasificación. Debido a su buena relación eficiencia/coste, a su uso extendido en el campo de los clasificadores de texto y a su idoneidad para aplicaciones de tiempo real por su capacidad para aprender de manera incremental, el elegido fue el algoritmo de Naïve Bayes. Tras llevar a cabo el análisis de distintas alternativas existentes en el estado del arte para el procesado escalable de grandes flujos de información, se seleccionó la plataforma S4 para desarrollar nuestra aplicación, gracias a sus buenas cualidades y al cumplimiento de nuestras necesidades. A lo largo de esta memoria, se documentan los pasos seguidos para diseñar e implementar la aplicación final, basada en la plataforma S4 y el algoritmo de Naïve Bayes (ambos serán analizados detalladamente). Se explica también el proceso completo de instalación, configuración y ejecución de la aplicación en un entorno distribuido. La aplicación implementada fue sometida a diversas pruebas para comprobar su correcto funcionamiento y su rendimiento. Entre las conclusiones extraídas de esta evaluación se pueden destacar los buenos resultados obtenidos por el desambiguador, tanto de eficiencia como de fiabilidad; lo que respalda su posible uso en el mundo real. Naïve Bayes y S4 son dos instrumentos muy adecuados para resolver con garantías los problemas planteados al inicio de esta memoria.
Classification always has played a key role in data management, in order to analyse, search and index information. Due to the large amount of data we can get to manage these days, the achievement of that task, in an exhaustive and automatic way, is now considered a real need. In addition, real time generation and distribution of information makes our task more complicated, because it requires a fast, reliable and scalable classifier. In this project, we face a concrete problem within classification process: disambiguation of mentions to entities, in documents coming from a real time input stream. Our main goal is to build an application to efficiently solve this problem via machine learning. Several learning algorithms were explored, choosing Naïve Bayes for our application because it's a well-known one in text classification field, and adjusts perfectly to our requirements. After analysing existing general purpose tools aimed to build and deploy applications dealing with huge data streams, open source S4 platform was chosen to base our development on, mainly because of its suitability for learning machines, besides a large list of interesting features. Through this document, we explain all steps followed to design and develop the final application, based on Naïve Bayes algorithm and S4 platform (both will be analysed in detail). Installation, configuration and execution process in a distributed system is explained in depth too. The resultant application was tested in order to proof its correct behaviour and performance. Among the conclusions extracted from this evaluation, we could highlight the good results obtained by the disambiguator, in efficiency as well as in reliability; which supports its use in real world. Naïve Bayes and S4 are both very suitable to solve with guarantee problems explained at the beginning of this document.
Description
Keywords
Clasificación de la información, Indexación de contenidos, Desambiguación de entidades, Plataforma S4, Algoritmo de Naïve Bayes
Bibliographic citation