在heritrix- 1.12.1 /docs/apidocs目录下可以查看其API:
org.archive.crawler.datamodel |
从上图可看出,CrawlOrder继承自一系列与属性设置相关的基类。CrawlOrder中的属性,是需要被随时读取和监测的。
说明:一次抓取任务包括许多属性,建议一个任务的方式有很多种,最简单的一种就是根据默认的order.xml来配置。
1) 如何读取order.xml文件中的属性,并创建一个CrawlOrder对象?
org.archive.crawler.settings |
Heritrix API提供了这样一个类XMLSettingsHandler,如下所示:
public XMLSettingsHandler(java.io.File orderFile) throws javax.management.InvalidAttributeValueException |
XMLSettingsHandler类的父类SettingsHandler定义了下面这个方法:
public CrawlOrder getOrder() { return order; } |
其可返回一个CrawlOrder的实例。