Publication:
Detección automática de paráfrasis sobre un corpus de preguntas en inglés

Loading...
Thumbnail Image
Identifiers
Publication date
2018-06
Defense date
2018-07-09
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
El aumento exponencial de la información escrita durante los últimos años ha creado la necesidad de desarrollar herramientas con el objetivo de procesar de manera automática todo este conocimiento. Existen gran cantidad de aplicaciones y técnicas implementadas con el fin de procesar automáticamente la información escrita. Una de las ramas de investigación más popular a causa de su amplia aplicabilidad es la detección de paráfrasis. En el presente Trabajo de Fin de Grado, se presenta la solución a un problema de detección de paráfrasis en textos cortos. Concretamente, se trata de un problema de detección de preguntas repetidas sobre un corpus de pares de preguntas en inglés. Con el objetivo de solucionar un problema de estas características, se han combinado varias técnicas basadas en la similitud léxica y la semántica de las palabras. En el presente Trabajo de Fin de Grado, se revisa el estado de las investigaciones sobre la detección de paráfrasis y se describen las técnicas más destacadas. Las técnicas basadas en aprendizaje automático son las que presentan mejores prestaciones, sin embargo, el problema de detección de paráfrasis en textos cortos no ha sido resuelto aún con carácter definitivo.
The exponential increase in written information over the last few years has created the need to develop tools with the aim of automatically processing all this knowledge. There are many applications and techniques implemented in order to automatically process written information. One of the most popular research branches is paraphrase detection because the amount of uses that it has. In this final degree project, is presented a paraphrase detection problem in short texts. Specifically, it is a repeated questions detection problem on a corpus of pairs of questions in english. In order to solve a problem of these characteristics, several techniques based on lexical and semantic similarity of words have been combined. In addition, in this final degree project, the status of the researches in paraphrase detection is reviewed and the most outstanding techniques are described. The techniques based on machine learning are those that present better performance, however, the problem of paraphrase detection in short texts has not been solved definitely.
Description
Keywords
Reconocimiento de texto, Detección de paráfrasis, Aprendizaje automático, Textos cortos en inglés
Bibliographic citation