Heritrix架构学习笔记（一）

单于帅

2023-12-01

1、抓取起点CrawlOrder

在heritrix- 1.12.1 /docs/apidocs目录下可以查看其API：

java.lang.Object

  
      
      
       
         
      
      
      
      
       
          
        
          
      
      javax.management.Attribute

      
      
      
       
          
        
          
      
      org.archive.crawler.settings.Type

          
      
      
       
          
        
          
      
      org.archive.crawler.settings.ComplexType

              
      
      
       
          
        
          
      
      org.archive.crawler.settings.ModuleType

                  
      
      
       
          
        
          
      
      org.archive.crawler.datamodel.CrawlOrder

从上图可看出，CrawlOrder继承自一系列与属性设置相关的基类。CrawlOrder中的属性，是需要被随时读取和监测的。

说明：一次抓取任务包括许多属性，建议一个任务的方式有很多种，最简单的一种就是根据默认的order.xml来配置。

1）如何读取order.xml文件中的属性，并创建一个CrawlOrder对象?

java.lang.Object

  
      
      
       
          
        
          
      
      org.archive.crawler.settings.SettingsHandler

      
      
      
       
          
        
          
      
      org.archive.crawler.settings.XMLSettingsHandler

Heritrix API提供了这样一个类XMLSettingsHandler，如下所示：

public XMLSettingsHandler(java.io.File orderFile)

throws javax.management.InvalidAttributeValueException

XMLSettingsHandler类的父类SettingsHandler定义了下面这个方法：

public CrawlOrder getOrder() {

return order;

}

其可返回一个CrawlOrder的实例。