Modelo para la actualización eficiente de contenidos en un Crawler de ficheros RSS

Sevillano Martín, José Vicente

Publication:
Modelo para la actualización eficiente de contenidos en un Crawler de ficheros RSS

Identifiers

URI: http://hdl.handle.net/10016/13654

Files

PresentacionPFC_Jose_Vicente_Sevillano_Martin.pdf (260.89 KB)

MODELO_PPFC_Jose_Vicente_Sevillano_Martin.pdf (70.17 KB)

PFC_Jose_Vicente_Sevillano_Martin.pdf (577.36 KB)

Publication date

2011

Defense date

2011-10-17

Authors

Sevillano Martín, José Vicente

Advisors

Segura-Bedmar, Isabel

Impact

Export

Abstract

El proyecto que se expone a continuación tiene por objetivo la mejora de la eficiencia del aplicativo conocido como Crawler, el cual se construyó con la finalidad de recuperar actualizaciones de ficheros de sindicación de sitios Web. Esta actualización se realiza visitando distintas páginas en Internet de manera periódica y en caso de existir datos nuevos recuperarlos. La manera que tiene de recuperar dichas actualizaciones, visitando en cada lanzamiento del Crawler cada página Web indicada en un fichero, hace que la eficiencia del proceso no sea la adecuada debido a la alta probabilidad de que un sitio Web no haya sido actualizado desde la última visita que se realizó. Con este proyecto se pretende programar en cierta manera los lanzamientos del Crawler para que cuando se realicen, su tasa de aciertos sea mucho mayor de lo que es en el sistema actual. El nuevo sistema priorizará páginas Web teniendo en cuenta el histórico de actualizaciones para valorar si en un lanzamiento del Crawler sería conveniente visitar cierta página porque se espera que esté actualizada. Debido a la mejora en la precisión y que, por tanto, acarrea menos trabajo del procesador, se podrá hacer crawling de muchas más fuentes. -----------------------------------------------------------------------------The main objetive of the project expounded here is the improvement in the efficiency of application known as Crawler, wich was built with the aim of retrieving updates from websites syndicating files. This update is executed checking different web pages periodically and retreving new data when they are found. The way it recovers those updates is visiting every web indexed in a file at every Crawler’s launching, which is not the most adequate process because it is high probable that a website has not been updated since the last visit was performed. This project aims to program Crawler’s launchings in order to improve its success rate. The new system gives priority to certain websites taking into account the historcal of updates to decide whether the Crawler must visit a specific site which is expected to be updated. A higher precision entails less work for the processor so it is possible to crawl much more sources.

Keywords

Sindicación de contenidos, Web

Collections

Proyectos Fin de Carrera

Full item page

Publication:
Modelo para la actualización eficiente de contenidos en un Crawler de ficheros RSS

Identifiers

Files

Publication date

Defense date

Authors

Advisors

Tutors

Journal Title

Journal ISSN

Volume Title

Publisher

Impact

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Collections

Publication: Modelo para la actualización eficiente de contenidos en un Crawler de ficheros RSS

Identifiers

Files

Publication date

Defense date

Authors

Advisors

Tutors

Journal Title

Journal ISSN

Volume Title

Publisher

Impact

Export

Research Projects

Organizational Units

Journal Issue

Abstract

Description

Keywords

Bibliographic citation

Collections

Publication:
Modelo para la actualización eficiente de contenidos en un Crawler de ficheros RSS