Publication:
Modelo para la actualización eficiente de contenidos en un Crawler de ficheros RSS

Research Projects
Organizational Units
Journal Issue
Abstract
El proyecto que se expone a continuación tiene por objetivo la mejora de la eficiencia del aplicativo conocido como Crawler, el cual se construyó con la finalidad de recuperar actualizaciones de ficheros de sindicación de sitios Web. Esta actualización se realiza visitando distintas páginas en Internet de manera periódica y en caso de existir datos nuevos recuperarlos. La manera que tiene de recuperar dichas actualizaciones, visitando en cada lanzamiento del Crawler cada página Web indicada en un fichero, hace que la eficiencia del proceso no sea la adecuada debido a la alta probabilidad de que un sitio Web no haya sido actualizado desde la última visita que se realizó. Con este proyecto se pretende programar en cierta manera los lanzamientos del Crawler para que cuando se realicen, su tasa de aciertos sea mucho mayor de lo que es en el sistema actual. El nuevo sistema priorizará páginas Web teniendo en cuenta el histórico de actualizaciones para valorar si en un lanzamiento del Crawler sería conveniente visitar cierta página porque se espera que esté actualizada. Debido a la mejora en la precisión y que, por tanto, acarrea menos trabajo del procesador, se podrá hacer crawling de muchas más fuentes. -----------------------------------------------------------------------------The main objetive of the project expounded here is the improvement in the efficiency of application known as Crawler, wich was built with the aim of retrieving updates from websites syndicating files. This update is executed checking different web pages periodically and retreving new data when they are found. The way it recovers those updates is visiting every web indexed in a file at every Crawler’s launching, which is not the most adequate process because it is high probable that a website has not been updated since the last visit was performed. This project aims to program Crawler’s launchings in order to improve its success rate. The new system gives priority to certain websites taking into account the historcal of updates to decide whether the Crawler must visit a specific site which is expected to be updated. A higher precision entails less work for the processor so it is possible to crawl much more sources.
Description
Keywords
Sindicación de contenidos, Web
Bibliographic citation