Publication:
Diseño y generación semi-automática de patrones adaptables para el reconocimiento de entidades

Loading...
Thumbnail Image
Identifiers
Publication date
2013-03
Defense date
2013-05-21
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
La tarea de Reconocimiento de Entidades Nombradas (NER) facilita la gestión de información y tiene utilidad en otras áreas, como Anotación Semántica, Sistemas de Búsqueda de Respuesta, Población de Ontologías y Minería de Opiniones. Pero de acuerdo a los resultados de algunos foros, el área de NER podría considerarse resuelta. La tesis profundiza en la evaluación del área y muestra que parece haberse estancado en el reconocimiento de entidades típicas, para las que habitualmente existen recursos anotados. Esto contrasta con la diversidad de tipos de entidad y dominios de aplicación actuales. Este trabajo contribuye con el diseño de un método para el reconocimiento de entidades más consecuente con el problema de no disponer de corpus anotados para cualquier tipo de entidad requerida y sobre cualquier dominio. El método diseñado integra los siguientes aspectos: Transparencia: patrones legibles y con alto grado de estandarización. Flexibilidad: posibilidad de incorporar diferentes tipos de atributos capaces de describir las entidades o su contexto. Potencia: reconocimiento de diferentes estructuras del lenguaje en los documentos. Coste: uso de un pequeño conjunto de entidades como semillas iniciales y técnicas de aprendizaje activo para guiar al usuario en el proceso de anotación. Efectividad: tasas de efectividad competitivas en relación al estado del arte, medidas en términos de precisión y exhaustividad. Los resultados obtenidos son evaluados mediante el uso de corpus públicos anotados con diferentes tipos de entidades, y comparados con otros trabajos relacionados en la literatura científica.
The task of Named Entity Recognition (NER) facilitates information management and is useful in other areas like Semantic Annotation, Question Answering, Ontology Population and Opinion Mining. According to the results from some evaluation forums though, NER may be considered a solved task. This dissertation digs into these evaluations and shows that they seemed stuck to the recognition of typical entities for which annotated resources are usually available. This contrasts with the current diversity of entity types and domains of application. The main contribution of this work is the design of a method to recognize entities that is more consistent with the lack of annotated corpora for any required type of entity and in any domain. The designed method integrates the following aspects: Transparency: readable patterns with a high level of standardization. Flexibility: possibility to incorporate different types of features capable of describing entities or their context. Power: recognition of different language structures within documents. Cost: use of a small set of entities as initial seeds and active learning techniques to guide the user through the annotation process. Effectiveness: competitive effectiveness rates compared to the state of the art in terms of precision and recall. The method is evaluated with two public annotated corpora with different types of entities, and compared with related works found in the scientific literature.
Description
Keywords
Reconocimiento de Entidades Nombradas, NER, Gestión de la información, Diseño de patrones, Control automático
Bibliographic citation
Collections