Publication:
Similitud semántica entre conceptos de Wikipedia

Loading...
Thumbnail Image
Identifiers
Publication date
2013-02
Defense date
2013-02-11
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
La similitud semántica entre palabras ha sido objeto de estudio, durante muchos años, dentro del área de la recuperación de información. El cálculo de la similitud semántica es un procedimiento genérico en una gran variedad de aplicaciones en áreas de Computación Lingüística e Inteligencia Artificial. Ejemplo de ello podría ser su uso en tareas de procesamiento de lenguaje natural, desambiguación de palabras, detección y corrección de errores en la escritura (malapropismo), clasificación de textos, etc. Podemos encontrar diferentes medidas para el cálculo de la similitud semántica. Sin embargo, a pesar de su uso extendido, la mayoría de medidas cuentan con un problema básico: las fuentes usadas para su cálculo, que pueden dividirse en taxonomías (jerarquías) con contenido limitado o de un determinado dominio, o corpus de gran tamaño. En el caso de las taxonomías, la mayoría de medidas propuestas hasta la fecha suelen usar WordNet, una taxonomía de términos en inglés. Si bien WordNet es útil para aplicaciones de información general, carece de conceptos específicos y nombres propios, no está traducida a diferentes idiomas y sus actualizaciones tardan tiempo en ver la luz. A veces se opta por usar taxonomías específicas para un determinado área, surgiendo así medidas que no son independientes del dominio. En el caso de medidas que usan diccionarios, se requiere una colección de textos que, si no son los adecuados, no proporcionan buenos resultados. Debido a estos problemas, hoy en día se hace necesaria una fuente de información que contenga la mayor cantidad de entidades del mundo real, que cuente con el consenso de una comunidad amplia y que sus actualizaciones se publiquen de una manera más ágil. Una de las fuentes de conocimiento que cumplen con estos requisitos es la actual Wikipedia. Wikipedia es una enciclopedia online multilingüe escrita colaborativamente por voluntarios. Posee entradas de un vasto número de entidades y conceptos, desde los más generales a los más especializados, conteniendo en diciembre de 2012, en su versión inglesa, hasta 4.146.000 artículos. Estas cualidades la han convertido ya en una fuente muy atractiva para la extracción de información por parte de numerosas aplicaciones. Este proyecto detalla una serie de medidas tradicionales cuya fuente de información es WordNet, y las adapta a Wikipedia, obteniendo resultados similares e incluso mejorando las basadas en Wikipedia en algunos casos, además de beneficiarse de las ventajas de esta fuente de información. ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Semantic similarity between words has been studied for many years within the area of information retrieval. The semantic similarity calculation is a generic procedure in a wide variety of applications in areas of Linguistic Computation and Artificial Intelligence. It is used in tasks of natural language processing, disambiguation of words, detecting and correcting errors in writing, text classification, automatic hypertext links, search engines, etc. We can find a variety of different measures for calculating the semantic similarity. However, despite their widespread use, most measures have a basic problem: the information sources used for their calculation. These sources can be divided into taxonomies (hierarchies) with limited content or elaborated for a certain domain, or large corpus. In the case of taxonomies, the majority of measures proposed so far tend to use the relationships between pairs of words in WordNet, a taxonomy of terms in English. While WordNet is useful for applications of general information, it lacks of specific concepts and proper nouns, it is not translated into different languages and its updates take time to be published. Some measures use taxonomies specific to a particular area, thus obtaining metrics that are not independent of the domain. Measures that use dictionaries and other corpus require a big collection of texts that, if not adequate, do not provide good results. Because of these problems, it is necessary a source of information that contains as many real-world entities as possible, which has the consensus of a broad community and whose updates are published more quickly. A knowledge source that meets these requirements is the current Wikipedia. Wikipedia is a multilingual online encyclopedia written collaboratively by volunteers. It provides entries of a vast number of entities and concepts, from general to more specific, containing up to 4,416 million articles in its English version (in December, 2012). These qualities have now become a very attractive source for the extraction of information for many applications. This project details a set of traditional measures whose source is WordNet, and adapts them to Wikipedia, getting similar results and even better when compared with Wikipedia measures, benefiting from the advantages of Wikipedia as well.
Description
Keywords
Semántica, Taxonomía, Recuperación de información, Wikipedia
Bibliographic citation