Publication:
Named Entity Recognition y Topic Modeling: metodología y aplicaciones al procesamiento de texto

Loading...
Thumbnail Image
Identifiers
Publication date
2019-07-01
Defense date
2019-07-01
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
El Procesamiento del Lenguaje Natural (NLP) es un campo de la computación que busca caracterizar automáticamente textos o discursos hablados a través de la identificación de patrones y ciertas características. Es un campo muy amplio, que agrupa tareas muy diversas: Reconocimiento de Entidades Nombradas (NER), modelado de topics o temáticas (TM), reducción de las palabras a su lexema o identificación de su función gramatical, interpretación de los sentimientos del autor de un texto, conversión de un texto a discurso escrito o viceversa, etc. La idea de este proyecto es el desarrollo de una herramienta para etiquetado de entidades clave e identificación de la temática en un texto. Se emplea como corpus de documentos los archivos de subtitulado procedentes de la API de RTVE. En primer lugar, se realiza una revisión bibliográfica de la documentación de las tecnologías existentes en este ámbito, junto con la implementación de un sistema conjunto con una etapa de reconocimiento de entidades y otra de modelado de topics. Son evaluadas algunas alternativas para cada una de las etapas, de las cuáles finalmente se selecciona una tecnología que se integra en el sistema final (R y Java con Apache OpenNLP para NER, Python con NLTK y Gensim para TM). La calidad del sistema conjunto viene condicionada por la calidad de cada parte, que se evalúa por separado. En la parte de NER, los errores son cuantificables, y se emplean métricas matemáticas basadas en el caso de error o acierto (recall, precision, accuracy, specifity, F1 score). En la parte de TM, no existe un resultado único de solución ideal al que aproximarse, por lo que la evaluación requiere del empleo de herramientas matemáticas de aproximación, y por ello se exploran varias alternativas (perplejidad, coherencia). Se considera que el trabajo ha cumplido sus objetivos por haberse completado las fases de desarrollo y haberse obtenido resultados razonables en las medidas de evaluación, pero asimismo se plantean nuevas líneas abiertas de trabajo, con las que este proyecto podría desarrollarse más, y en el caso ideal, llegar a implementarse en las plataformas de RTVE, de donde se han obtenido los documentos empleados como base de los sistemas.
Description
Keywords
Procesamiento del Lenguaje Natural (NLP), Reconocimiento de Entidades Nombradas (NER), Aprendizaje máquina, Topic Modeling, Machine Learning
Bibliographic citation