Publication:
Building an Anglo-Spanish translation lexicon for proper names form the Web

Loading...
Thumbnail Image
Identifiers
Publication date
2010-01-18
Defense date
2010-06-09
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
The use of electronic dictionaries is common in tasks like Cross Language Information Retrieval (CLIR) and Machine Translation (MT). There are many electronic dictionaries, but they do not include proper names. Furthermore, new names appear every day. Since names are an essential part in CLIR queries and in language in general, there is a need for a means to translate them from one language to another. The aim of this project has been to construct a translation lexicon for proper names obtaining the data from translated texts from the Web. Ideally, this lexicon would update continuously from the Web’s growing resources. This report contains a literature research and an analysis of the findings which has finally led to the design and development of a system that constructs a translation lexicon for proper names, from comparable news articles in English and Spanish downloaded from the Web. The lexicon contains almost 10,000 named entities recovered from more than 27,000 pairs of articles. It has the capability of updating its contents from new articles appearing every day on the Web. _______________________________________________________________________________________________________
El uso de diccionarios electrónicos es una tarea común en sistemas de búsqueda translingüe (del inglés Cross Language Information Retrieval CLIR) y traducción automática (TA). Existen muchos diccionarios electrónicos, pero estos no incluyen nombres de entidades. Además cada día aparecen nuevos nombres. Dado que los nombres son una parte esencial en las búsquedas translingües y en el lenguaje en general es necesario buscar una forma de traducirlos de un idioma a otro. El objetivo de este proyecto es construir un lexicón de nombres de entidades obteniendo los datos en textos traducidos publicados en la Web. En el caso perfecto el lexicón se actualizará constantemente utilizando los recursos en continuo crecimiento de la Web. Este documento es un resumen en español del proyecto original en inglés que contiene un estudio de campo que ha llevado al diseño e implementación de un sistema que construye un lexicón de nombres propios, utilizando artículos de noticias escritos en inglés y español y descargados de la Web. El lexicón contiene más de 10000 nombres obtenidos en más de 27000 parejas de artículos. El sistema tiene la capacidad de actualizar el contenido del lexicón utilizando los nuevos artículos que se publican cada día.
Description
Keywords
Lingüística computacional, Ingeniería del conocimiento, Recuperación de la información, Diccionarios electrónicos
Bibliographic citation