Nutch
介绍
Apache Nutch是一个用Java编写的开源网络爬虫。通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的网页创建一个副本以便用于搜索。接下来就是Apache Solr所要做的。Solr是一个开源的全文搜索框架,通过Solr我们能够搜索Nutch已经访问过的网页。幸运的是,关于Nutch和Solr之间的整合在下方已经解释得相当清楚了。
Apache Nutch对于Solr已经支持得很好,这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网络应用以及依赖于Apache Lucene来进行索引的麻烦。只需要从这里下载一个二进制的发行版即可。
步骤
- 这篇教程描述了Nutch 1.x(当前版本是1.6)的安装和使用。关于如何编译和安装Nutch 2.x,请查看Nutch2Tutorial。
1.从二进制发行包安装Nutch
- 从这里下载二进制包(apache-nutch-1.X-bin.zip)。
- 解压缩您的Nutch包。那应该会有一个新文件夹apache-nutch-1.X。
- cd apache-nutch-1.X/
从现在开始,我们将会使用${NUTCH_RUNTIME_HOME}来代替当前目录(apache-nutch-1.X/)。
从源代码安装Nutch
高级用户也可能会使用源代码发行包:
- 下载一个源代码包(apache-nutch-1.X-src.tar.gz)
- 解压缩
- cd apache-nutch-1.X/
- 在这个目录里运行ant(参见:RunNutchInEclipse)
- 现在那会有一个目录runtime/local,它包含了准备使用的Nutch安装
当使用源代码包时,我们会用${NUTCH_RUNTIME_HOME}代替目录apache-nutch-1.X/runtime/local/。记住这些:
- 配置文件在apache-nutch-1.X/runtime/local/conf/目录里面
- ant clean将会移除这个目录(并保留被更改的配置文件的备份)
2.检验您的Nutch安装
- 运行”bin/nutch“。如果您能看见下列内容说明您的安装是正确的:
Usage: nutch [-core] COMMAND
一些解决问题的提示:
- 如果您看见”Permission denied”那么请运行下列命令:
chmod +x bin/nutch
- 如果您看见JAVA_HOME没有设置那么请设置JAVA_HOME环境变量。在Mac上,您可以运行下述命令或者把它添加到~/.bashrc里面去:
export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6/Home