这半年多很长时间的工作内容就是读Java源代码,同事的源代码,开源产品的源代码。最近开始利用爬虫获取一些资源,看了几个开源的Java爬虫,发现weblech比较简洁,决定以它为基础进行改造。其实有一个更好的开源产品larbin,是C的,读起来总是很头疼,主要是读惯了Java的,对C源代码的敏感度很低。
1、从配置文件Spider.properties看,weblech只是个半成品,不知基于什么原因,并没有继续更新它。
初步测试过几次,一开始需要对weblech进行如下几个方面修改:
1、不下载图片。
2、爬虫会跳到网站的help里面去,觉得不需要爬这些网页,所以筛选机制要进一步完善。
3、Log需要更多的信息,目前需要需要已下载url列表以及url的深度。
4、对跳转链接进行处理。对于跳转的url,weblech并没有进行处理,对跳转链接不是太了解,暂时不处理,后期再考虑,这里先做备份。
5、主要目的是爬文件,后期网页也不会保存。