Publication: Named Entity Recognition y Topic Modeling: metodología y aplicaciones al procesamiento de texto
Loading...
Identifiers
Publication date
2019-07-01
Defense date
2019-07-01
Advisors
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
El Procesamiento del Lenguaje Natural (NLP) es un campo de la computación que busca
caracterizar automáticamente textos o discursos hablados a través de la identificación de
patrones y ciertas características. Es un campo muy amplio, que agrupa tareas muy
diversas: Reconocimiento de Entidades Nombradas (NER), modelado de topics o
temáticas (TM), reducción de las palabras a su lexema o identificación de su función
gramatical, interpretación de los sentimientos del autor de un texto, conversión de un texto
a discurso escrito o viceversa, etc.
La idea de este proyecto es el desarrollo de una herramienta para etiquetado de entidades
clave e identificación de la temática en un texto. Se emplea como corpus de documentos
los archivos de subtitulado procedentes de la API de RTVE. En primer lugar, se realiza
una revisión bibliográfica de la documentación de las tecnologías existentes en este
ámbito, junto con la implementación de un sistema conjunto con una etapa de
reconocimiento de entidades y otra de modelado de topics. Son evaluadas algunas
alternativas para cada una de las etapas, de las cuáles finalmente se selecciona una
tecnología que se integra en el sistema final (R y Java con Apache OpenNLP para NER,
Python con NLTK y Gensim para TM).
La calidad del sistema conjunto viene condicionada por la calidad de cada parte, que se
evalúa por separado. En la parte de NER, los errores son cuantificables, y se emplean
métricas matemáticas basadas en el caso de error o acierto (recall, precision, accuracy,
specifity, F1 score). En la parte de TM, no existe un resultado único de solución ideal al
que aproximarse, por lo que la evaluación requiere del empleo de herramientas
matemáticas de aproximación, y por ello se exploran varias alternativas (perplejidad,
coherencia). Se considera que el trabajo ha cumplido sus objetivos por haberse
completado las fases de desarrollo y haberse obtenido resultados razonables en las
medidas de evaluación, pero asimismo se plantean nuevas líneas abiertas de trabajo, con
las que este proyecto podría desarrollarse más, y en el caso ideal, llegar a implementarse
en las plataformas de RTVE, de donde se han obtenido los documentos empleados como
base de los sistemas.
Description
Keywords
Procesamiento del Lenguaje Natural (NLP), Reconocimiento de Entidades Nombradas (NER), Aprendizaje máquina, Topic Modeling, Machine Learning