Heritrix的介绍与使用
严峰
2023-12-01
强大的网络爬虫框架--Heritrix:基于多线程的高效率的网络爬虫框架。
第一部分:介绍Heritrix的基本使用(首先需要从Heritrix的官网上下载相应的项目)
1.导入jar包 需要注意在项目根目录下添加lib文件夹,然后将相关联的jar包添加进去
2.拷贝源代码 src-java con/org/st运行Heritrix所必需的核心代码,拷贝到项目MyHeritrix目录下
src\resources\org\archive\util util-tids-alpha-domain.txt顶级域名列表拷贝到MyHeritrix\src\org\archive\util中
src-conf文件夹 运行Heritrix运行所需的配置文件,拷贝到MyHeritrix根目录下
src-webapps文件夹 提供servlet引擎的,包含了Heritrix的Web UI文件,拷贝到MyHeritrix根目录下
如果想使用帮助,可以将heritrix-1.14.4.zip/docs中的articles文件夹拷贝到MyHeritrix\webapps\admin\docs(需新建docs文件夹)下。
3.修改配置文件(heritrix.properties)
heritrix.cmdline.admin = admin:admin设置用户名/密码
heritrix.version = 1.14.4设置版本参数
4.运行配置文件(配置运行的工程)
5启动MyHeritrix服务 启动入口程序:MyHeritrix.java
6.进入登录界面 http://localhost:8080
7.进入Heritrix控制台
创建抓取任务 job(http://www.bjfu.edu.cn/为入口)(Queue/ExtractLink/FileDownloader)
Modules 设置处理模块
设置Settings
启动任务 (Start-启动任务)
第二部分:拓展自己的网页抓取逻辑
1.介绍Heritrix架构和URL处力链
2拓展FrontierScheduler 重写schedule()
3.在modules文件夹中的Processor.options中添加一行“org.archive.crawler.postprocessor.FrontierSchedulerForBjfu|FrontierSchedulerForBjfu”
4.在WebUI中选择拓展的org.archive.crawler.postprocessor.FrontierSchedulerForBjfu选项