Rights:
Atribución-NoComercial-SinDerivadas 3.0 España
Abstract:
El presente trabajo surge de la unión de dos elementos los cuales, a pesar de que fueron
concebidos por separado, han resultado ser complementarios el uno del otro. Por un
lado, están los sistemas pregunta-respuesta, nacidos en la década de los 60 y, por otrEl presente trabajo surge de la unión de dos elementos los cuales, a pesar de que fueron
concebidos por separado, han resultado ser complementarios el uno del otro. Por un
lado, están los sistemas pregunta-respuesta, nacidos en la década de los 60 y, por otro
lado, el internet, nacido a principios de la década de los 90. Ambos tienen una finalidad
que emana del acceso y manejo de la información. Es por ello que cuando les damos un
uso conjunto, conformamos dispositivos más sofisticados, útiles y complejos.
A través del procesamiento del lenguaje natural (Python), el análisis de datos (R) y la
identificación de patrones (Python), se procederá a determinar los elementos de
posicionamiento de los sistemas pregunta-respuesta en la web. Es decir, se pretende
entender qué factores son relevantes para que un buscador elija un documento
determinado y, dentro de dicho documento, la información que se selecciona y se extrae
como respuesta.
Resulta de interés general profundizar en el estudio del funcionamiento de estos factores
debido a la importancia y el gran uso de este tipo de herramientas en multitud de
campos, tanto científicos como cotidianos. El problema es lo difuso que es para la
población el funcionamiento de éstas, debido a su complejidad y a lo opacos que son los
diseñadores con su desarrollo.
El trabajo se centra en Google por ser el principal buscador utilizado en la actualidad
con una amplia ventaja sobre los demás. Se ha generado el corpus a partir de
documentos tanto en inglés como en español y se han aplicado distintos algoritmos para
obtener qué factores influyen y determinan su elección.
Los resultados del estudio realizado confirman que los factores que más influyen son la
relevancia, la fiabilidad y el tiempo de carga del documento para cada consulta.[+][-]
The present work arises from the union of two elements which, although they were
conceived separately, have turned out to be complementary to each other. On the one
hand, there are the question-answer systems, born in the 60's, and on the other hand, the
InThe present work arises from the union of two elements which, although they were
conceived separately, have turned out to be complementary to each other. On the one
hand, there are the question-answer systems, born in the 60's, and on the other hand, the
Internet, born in the early 90's. Both have a purpose that emanates from the access and
management of information. Both have a purpose that emanates from the access and
management of information. That is why together they form a more sophisticated,
useful and complex device.
Through natural language processing (Python), data analysis (R) and pattern
identification (Python), we will proceed to determine the positioning elements of
question-answer systems on the web. In other words, the aim is to understand which
factors are relevant both for a search engine to choose a certain document, and to choose
which section within the document to select and extract as an answer.
It is of general interest to deepen the study of the operation of these tools due to the
importance and the great use of this type of tools in many fields, both scientific and
every day. The problem is how fuzzy it is for the population how they work, due to their
complexity and how opaque designers are with their development.
The work will focus on Google because it is the main search engine used today with a
wide advantage over the others. A corpus will be generated from documents in both
English and Spanish and different algorithms will be applied to obtain which factors
influence and determine their choice.
The results of the study will confirm that the most influential factors are relevance,
reliability and document loading time for each query.[+][-]