Diseño de un sistema de extracción de información de artículos de Wikipedia

Sáez Guerrero, Miguel

Publication:
Diseño de un sistema de extracción de información de artículos de Wikipedia

Identifiers

URI: https://hdl.handle.net/10016/5874

Files

PFC_Miguel_Saez_Guerrero.pdf (1.93 MB)

Publication date

2009-10

Defense date

2009-10-05

Authors

Sáez Guerrero, Miguel

Advisors

Villena Román, Julio

Impact

Export

Abstract

El objetivo del presente proyecto es el diseño de un sistema de extracción automática de información a partir de grandes corpus de textos. Más concretamente, el desarrollo del proyecto se ha centrado en la búsqueda de información específica dentro de artículos de personajes contenidos en Wikipedia. El sistema diseñado tratará de establecer todas las relaciones posibles entre el artículo analizado y una serie de conceptos contenidos dentro del mismo (enlaces a otros artículos). Estas relaciones serán automáticamente clasificadas dentro de la categoría que se estime más adecuada (relación laboral, invención, lugar de residencia, etc.). La implementación del sistema combina el uso de distintas técnicas de Procesamiento de Lenguaje Natural (incluyendo herramientas de análisis morfológico, sintáctico y semántico), la potencia de PHP para el procesamiento de textos de gran tamaño y la flexibilidad de las expresiones regulares tipo Perl. ___________________________________________
The objective of this project is the design of an Information Extraction (IE) system to gather specific information from large text files. Specifically, the design has focused on information search within Wikipedia articles about people. The designed system will try to establish all the possible relationships between the analyzed article and a series of concepts appearing in it (links to other articles). These relationships will be automatically classified in the most suitable category (laboral relationship, invention, place of residence, etc.). The implementation of the system combines the use of different techniques of Natural Language Processing (such as part-of-speech, syntactic and semantic analysis tools), the power of PHP to process large text files and the flexibility of Perl Compatible Regular Expressions.

Keywords

Ingeniería del conocimiento, Recuperación de la información, Wikipedia, Procesamiento del lenguaje natural

Collections

Proyectos Fin de Carrera

Full item page

Publication:
Diseño de un sistema de extracción de información de artículos de Wikipedia

Identifiers

Files

Publication date

Defense date

Authors

Advisors

Tutors

Journal Title

Journal ISSN

Volume Title

Publisher

Impact

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Collections

Publication: Diseño de un sistema de extracción de información de artículos de Wikipedia

Identifiers

Files

Publication date

Defense date

Authors

Advisors

Tutors

Journal Title

Journal ISSN

Volume Title

Publisher

Impact

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Collections

Publication:
Diseño de un sistema de extracción de información de artículos de Wikipedia