Publication:
Diseño de un sistema de extracción de información de artículos de Wikipedia

Loading...
Thumbnail Image
Identifiers
Publication date
2009-10
Defense date
2009-10-05
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
El objetivo del presente proyecto es el diseño de un sistema de extracción automática de información a partir de grandes corpus de textos. Más concretamente, el desarrollo del proyecto se ha centrado en la búsqueda de información específica dentro de artículos de personajes contenidos en Wikipedia. El sistema diseñado tratará de establecer todas las relaciones posibles entre el artículo analizado y una serie de conceptos contenidos dentro del mismo (enlaces a otros artículos). Estas relaciones serán automáticamente clasificadas dentro de la categoría que se estime más adecuada (relación laboral, invención, lugar de residencia, etc.). La implementación del sistema combina el uso de distintas técnicas de Procesamiento de Lenguaje Natural (incluyendo herramientas de análisis morfológico, sintáctico y semántico), la potencia de PHP para el procesamiento de textos de gran tamaño y la flexibilidad de las expresiones regulares tipo Perl. ___________________________________________
The objective of this project is the design of an Information Extraction (IE) system to gather specific information from large text files. Specifically, the design has focused on information search within Wikipedia articles about people. The designed system will try to establish all the possible relationships between the analyzed article and a series of concepts appearing in it (links to other articles). These relationships will be automatically classified in the most suitable category (laboral relationship, invention, place of residence, etc.). The implementation of the system combines the use of different techniques of Natural Language Processing (such as part-of-speech, syntactic and semantic analysis tools), the power of PHP to process large text files and the flexibility of Perl Compatible Regular Expressions.
Description
Keywords
Ingeniería del conocimiento, Recuperación de la información, Wikipedia, Procesamiento del lenguaje natural
Bibliographic citation