Named Entity Recognition y Topic  Modeling: metodología y aplicaciones al procesamiento de texto

Ibáñez de Opacua Lomoschitz, María

Publication:
Named Entity Recognition y Topic Modeling: metodología y aplicaciones al procesamiento de texto

Identifiers

URI: https://hdl.handle.net/10016/30068

Files

TFG_Maria_Ibañez-de-Opacua_Lomoschitz_2019.pdf (2.29 MB)

Publication date

2019-07-01

Defense date

2019-07-01

Authors

Ibáñez de Opacua Lomoschitz, María

Advisors

Roca Sotelo, Simón

Impact

Export

Abstract

El Procesamiento del Lenguaje Natural (NLP) es un campo de la computación que busca caracterizar automáticamente textos o discursos hablados a través de la identificación de patrones y ciertas características. Es un campo muy amplio, que agrupa tareas muy diversas: Reconocimiento de Entidades Nombradas (NER), modelado de topics o temáticas (TM), reducción de las palabras a su lexema o identificación de su función gramatical, interpretación de los sentimientos del autor de un texto, conversión de un texto a discurso escrito o viceversa, etc. La idea de este proyecto es el desarrollo de una herramienta para etiquetado de entidades clave e identificación de la temática en un texto. Se emplea como corpus de documentos los archivos de subtitulado procedentes de la API de RTVE. En primer lugar, se realiza una revisión bibliográfica de la documentación de las tecnologías existentes en este ámbito, junto con la implementación de un sistema conjunto con una etapa de reconocimiento de entidades y otra de modelado de topics. Son evaluadas algunas alternativas para cada una de las etapas, de las cuáles finalmente se selecciona una tecnología que se integra en el sistema final (R y Java con Apache OpenNLP para NER, Python con NLTK y Gensim para TM). La calidad del sistema conjunto viene condicionada por la calidad de cada parte, que se evalúa por separado. En la parte de NER, los errores son cuantificables, y se emplean métricas matemáticas basadas en el caso de error o acierto (recall, precision, accuracy, specifity, F1 score). En la parte de TM, no existe un resultado único de solución ideal al que aproximarse, por lo que la evaluación requiere del empleo de herramientas matemáticas de aproximación, y por ello se exploran varias alternativas (perplejidad, coherencia). Se considera que el trabajo ha cumplido sus objetivos por haberse completado las fases de desarrollo y haberse obtenido resultados razonables en las medidas de evaluación, pero asimismo se plantean nuevas líneas abiertas de trabajo, con las que este proyecto podría desarrollarse más, y en el caso ideal, llegar a implementarse en las plataformas de RTVE, de donde se han obtenido los documentos empleados como base de los sistemas.

Keywords

Procesamiento del Lenguaje Natural (NLP), Reconocimiento de Entidades Nombradas (NER), Aprendizaje máquina, Topic Modeling, Machine Learning

Collections

Trabajos Fin de Grado Escuela Politécnica Superior

Full item page

Publication:
Named Entity Recognition y Topic Modeling: metodología y aplicaciones al procesamiento de texto

Identifiers

Files

Publication date

Defense date

Authors

Advisors

Tutors

Journal Title

Journal ISSN

Volume Title

Publisher

Impact

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Collections

Publication: Named Entity Recognition y Topic Modeling: metodología y aplicaciones al procesamiento de texto

Identifiers

Files

Publication date

Defense date

Authors

Advisors

Tutors

Journal Title

Journal ISSN

Volume Title

Publisher

Impact

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Collections

Publication:
Named Entity Recognition y Topic Modeling: metodología y aplicaciones al procesamiento de texto