Heritrix的介绍与使用

严峰

2023-12-01

强大的网络爬虫框架--Heritrix：基于多线程的高效率的网络爬虫框架。

第一部分：介绍Heritrix的基本使用（首先需要从Heritrix的官网上下载相应的项目）

1.导入jar包需要注意在项目根目录下添加lib文件夹，然后将相关联的jar包添加进去
2.拷贝源代码 src-java con/org/st运行Heritrix所必需的核心代码，拷贝到项目MyHeritrix目录下
src\resources\org\archive\util util-tids-alpha-domain.txt顶级域名列表拷贝到MyHeritrix\src\org\archive\util中
src-conf文件夹运行Heritrix运行所需的配置文件，拷贝到MyHeritrix根目录下
src-webapps文件夹提供servlet引擎的，包含了Heritrix的Web UI文件，拷贝到MyHeritrix根目录下
如果想使用帮助，可以将heritrix-1.14.4.zip/docs中的articles文件夹拷贝到MyHeritrix\webapps\admin\docs(需新建docs文件夹）下。
3.修改配置文件（heritrix.properties）
heritrix.cmdline.admin = admin:admin设置用户名/密码
heritrix.version = 1.14.4设置版本参数
4.运行配置文件（配置运行的工程）
5启动MyHeritrix服务启动入口程序：MyHeritrix.java
6.进入登录界面 http://localhost:8080
7.进入Heritrix控制台
创建抓取任务 job(http://www.bjfu.edu.cn/为入口）（Queue/ExtractLink/FileDownloader)
Modules 设置处理模块
设置Settings
启动任务（Start-启动任务）

第二部分：拓展自己的网页抓取逻辑
1.介绍Heritrix架构和URL处力链
2拓展FrontierScheduler 重写schedule()
3.在modules文件夹中的Processor.options中添加一行“org.archive.crawler.postprocessor.FrontierSchedulerForBjfu|FrontierSchedulerForBjfu”
4.在WebUI中选择拓展的org.archive.crawler.postprocessor.FrontierSchedulerForBjfu选项

Heritrix的介绍与使用

相关阅读

相关文章

相关问答

相关文档