当前位置: 首页 > 工具软件 > WebCrawler > 使用案例 >

网页爬虫(WebCrawler)更新策略

丘飞
2023-12-01

         互联网是实时变化的,具有很强的动态性。网页更行策略主要用来决定何时更新之前已经下载的页面。常见的更新策略有以下三种: 

1、历史参考策略

        顾明思议,历史参考策略是指根据页面以往的历史更新数据,预测该页面未来何时会发生变化。。一般来说,是通过泊松过程进行建模来预测的。


2、用户体检策略

        尽管搜索引擎针对某个查询条件能够返回数量巨大的结果,但是用户往往只关注前几页结果。因此,抓取系统可以优先更新那些在查询结果中排名靠前的网页,然后再更新排名靠后的网页。这种更新策略也需要用到历史信息。用户体验策略保留网页的多个历史版本,并且根据过去每次的内容变化对搜索质量的影响得出一个平均值,将该值作为决定何时重新抓取的依据。


3、聚类抽样策略

        前面提到的两种更新策略都有一个前提:需要网页的历史信息。这样就会存在两个问题:第一,系统如果为每个网页保存多个历史版本信息,则无疑增加了系统负担;第二,如果新的网页完全没有历史信息,则无法确定更新策略。

        聚类抽样策略认为,网页具有很多属性,类似属性的网页可以认为其更新频率也是类似的。要计算某个类别网页的更新策略,只需对这类网页抽样,以他们的更新周期作为整个类别的更新周期。


 

 类似资料: