将weblech改造成文件爬虫（一）

公羊宗清

2023-12-01

这半年多很长时间的工作内容就是读Java源代码，同事的源代码，开源产品的源代码。最近开始利用爬虫获取一些资源，看了几个开源的Java爬虫，发现weblech比较简洁，决定以它为基础进行改造。其实有一个更好的开源产品larbin，是C的，读起来总是很头疼，主要是读惯了Java的，对C源代码的敏感度很低。

1、从配置文件Spider.properties看，weblech只是个半成品，不知基于什么原因，并没有继续更新它。

#下载网页的存储文件夹 saveRootDirectory = ./sites #邮件列表，将网页出现的邮箱地址记录到mailtoLogFile 下 mailtoLogFile = mailto.txt #这三个功能是指定下载或者不下载哪些类型的网页，但是功能并没有实现 refreshHTMLs = true refreshImages = false refreshOthers = false htmlExtensions = htm,html,shtm,shtml imageExtensions = gif,jpg,jpeg,png,bmp #起始网页 startLocation = http://www.baidu.com/ #是否深度优先，若为false，则是广度优先，功能未实现 depthFirst = false #网页爬虫进入的深度，起始网页的深度为1，起始网页中的链接深度为2，以此递归 maxDepth = 4 #对网页进行筛选，要求网页地址包含的字符串 urlMatch = . #优先处理等级，功能未实现 interestingURLs=pollBooth.pl,faq boringURLs=article.pl userAgent = Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0) basicAuthUser = myUser basicAuthPassword = 1234 #爬虫线程数 spiderThreads = 3 #线程获取下一个url地址失败之后的等待时间 checkpointInterval = 30000

初步测试过几次，一开始需要对weblech进行如下几个方面修改：

1、不下载图片。

2、爬虫会跳到网站的help里面去，觉得不需要爬这些网页，所以筛选机制要进一步完善。

3、Log需要更多的信息，目前需要需要已下载url列表以及url的深度。

4、对跳转链接进行处理。对于跳转的url，weblech并没有进行处理，对跳转链接不是太了解，暂时不处理，后期再考虑，这里先做备份。

5、主要目的是爬文件，后期网页也不会保存。

将weblech改造成文件爬虫（一）

相关阅读

相关文章

相关问答

相关文档