Diseño y generación semi-automática de patrones adaptables para el reconocimiento de entidades

e-Archivo Repository

Show simple item record

dc.contributor.advisor Sánchez Cuadrado, Sonia
dc.contributor.advisor Morato Lara, Jorge Luis
dc.contributor.author Marrero Llinares, Mónica
dc.date.accessioned 2013-07-22T10:46:48Z
dc.date.issued 2013-03
dc.date.submitted 2013-05-21
dc.identifier.uri http://hdl.handle.net/10016/17361
dc.description.abstract La tarea de Reconocimiento de Entidades Nombradas (NER) facilita la gestión de información y tiene utilidad en otras áreas, como Anotación Semántica, Sistemas de Búsqueda de Respuesta, Población de Ontologías y Minería de Opiniones. Pero de acuerdo a los resultados de algunos foros, el área de NER podría considerarse resuelta. La tesis profundiza en la evaluación del área y muestra que parece haberse estancado en el reconocimiento de entidades típicas, para las que habitualmente existen recursos anotados. Esto contrasta con la diversidad de tipos de entidad y dominios de aplicación actuales. Este trabajo contribuye con el diseño de un método para el reconocimiento de entidades más consecuente con el problema de no disponer de corpus anotados para cualquier tipo de entidad requerida y sobre cualquier dominio. El método diseñado integra los siguientes aspectos: Transparencia: patrones legibles y con alto grado de estandarización. Flexibilidad: posibilidad de incorporar diferentes tipos de atributos capaces de describir las entidades o su contexto. Potencia: reconocimiento de diferentes estructuras del lenguaje en los documentos. Coste: uso de un pequeño conjunto de entidades como semillas iniciales y técnicas de aprendizaje activo para guiar al usuario en el proceso de anotación. Efectividad: tasas de efectividad competitivas en relación al estado del arte, medidas en términos de precisión y exhaustividad. Los resultados obtenidos son evaluados mediante el uso de corpus públicos anotados con diferentes tipos de entidades, y comparados con otros trabajos relacionados en la literatura científica.
dc.description.abstract The task of Named Entity Recognition (NER) facilitates information management and is useful in other areas like Semantic Annotation, Question Answering, Ontology Population and Opinion Mining. According to the results from some evaluation forums though, NER may be considered a solved task. This dissertation digs into these evaluations and shows that they seemed stuck to the recognition of typical entities for which annotated resources are usually available. This contrasts with the current diversity of entity types and domains of application. The main contribution of this work is the design of a method to recognize entities that is more consistent with the lack of annotated corpora for any required type of entity and in any domain. The designed method integrates the following aspects: Transparency: readable patterns with a high level of standardization. Flexibility: possibility to incorporate different types of features capable of describing entities or their context. Power: recognition of different language structures within documents. Cost: use of a small set of entities as initial seeds and active learning techniques to guide the user through the annotation process. Effectiveness: competitive effectiveness rates compared to the state of the art in terms of precision and recall. The method is evaluated with two public annotated corpora with different types of entities, and compared with related works found in the scientific literature.
dc.format.mimetype application/pdf
dc.language.iso spa
dc.rights Atribución-NoComercial-SinDerivadas 3.0 España
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject.other Reconocimiento de Entidades Nombradas
dc.subject.other NER
dc.subject.other Gestión de la información
dc.subject.other Diseño de patrones
dc.subject.other Control automático
dc.title Diseño y generación semi-automática de patrones adaptables para el reconocimiento de entidades
dc.type doctoralThesis
dc.type.review PeerReviewed
dc.subject.eciencia Informática
dc.rights.accessRights openAccess
dc.contributor.departamento Universidad Carlos III de Madrid. Departamento de Informática
 Find Full text

Files in this item

*Click on file's image for preview. (Embargoed files's preview is not supported)


The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record