当前位置: 首页 > 工具软件 > Nutch > 使用案例 >

Windows下安装Nutch

孙正业
2023-12-01

Nutch安装
一、需求部份
a) Nutch是Java开发的所以需要下载Java JDK
下载地址http://java.sun.com/javase/downloads/index.jsp
b) Nutch的演示搜索页面是Jsp的需要Tomcat做服务器
下载地址:http://jakarta.apache.org/tomcat/
c) Nutch的脚本都是用Linux的Shell写的,所以在Windows平台需要一个Shell解释程序。Cygwin是一个在Windows下的模拟Linux系统程序。(注Linux下不需要下载此程序)
下载地址:http://www.cygwin.com/
d) Nutch下载地址:http://lucene.apache.org/nutch/
e) 建议安装UltraEdit文字编辑器。

二、安装步骤
a)Java JDK安装
安装目录不要出现中文,安装完成后设置环境变量,win7下设置环境变量和XP不同,在系统变量或者用户变量都行。
变量名JAVA_HOME
变量值 D:\Java\jdk(此处根据安装目录决定)
变量名 PATH
变量值 %JAVA_HOME%\bin;%Path%(“%变量名%”表示前面已有的变量)
变量名 CLASSPATH
变量值 .;%JAVA_HOME%\lib;%CATALINA_HOME%\lib(前面的“.”不能省,后面这是tomcat的需要)
变量安装完成后,在运行里输入“cmd”打开命令行,分别输入“java”,”javac”,”java –version”若显示具体信息而没有报错,则安装成功,如下图

b)tomcat安装
Tomcat解压缩在没有中文的目录下,设置环境变量
变量名 CATALINA_HOME
变量值 D:\bishe\apache-tomcat-7.0.6(具体的安装路径)
变量CLASSPATH的编辑前面已经完成,就不再需要。
运行CMD 进入此目录下运行catalina.bat run
Tomcat的运行和停止的文件分别是startup.bat和shutdown.bat。

c)Cygwin安装
运行安装程序后出现如下图:
之后一直选择下一步就好了,root directory为安装路径,local package directory为安装文件所在路径(也是setup.exe所在路径)。完成后在桌面会出现,此为cygwin目录下的cygwin.bat的快捷方式。

d)natch安装
下载完成后解压在没有中文的路径下。设置环境变量
变量名 NUTCH_JAVA_HOME
变量值 %JAVA_HOME%
运行cygwin,输入命令cd /cygdrive/d/bishe/nutch-1.2,再输入bin/nutch如图则nutch安装成功。

三、配置步骤
a)在nutch目录下建立urls目录,在目录中建立txt文件,文件名任意,用来设置搜索站点的起始位置,如:http://www.ustc.edu.cn/。
b)修改网址过滤规则conf/crawl-urlfilter.txt文件,把里面的MY.DOMAIN.NAME修改为你的抓取的URL。eg:
+^http://([a-z0-9]*.)*ustc.edu.cn/这里设置为只抓取以edu.cn结尾的URL。

c) 修改conf/nutch-site.xml代理信息,在和之间添加如下文件:

http.agent.name
ubuntuer(此处ubuntu是一个自定义的值,有说是可以为空,
有说是要设置一个单词,我是设置了一个词)


http.agent.description
ubuntuer



http.agent.url




http.agent.email
iptabler@gmail.com


d)执行nutch抓取url数据
在Cygwin命令行窗口中输入:cd /cygdrive/d/nutch-1.2
再输入bin/nutch crawl urls –dir crawl –depth 3 –threads 4 –topN 30 >& crawl.log
注意在,命令行窗口中输入命令的空格!!命令说明:
crawl 是nutch检索数据命令,后面跟上要检索的URL文件。urls就是a)部份创建的文件
-dir是检索后的结果存放目录参数,后面跟上结果存放地址。如果我们存放到nutch目录下的crawl目录,注意此目录当前是不存在的。检索完后nutch会创建出来。-threads 抓取时的线程数参数
-depth 抓取时的深度参数
-topN 抓取时每页的最大抓取链接
最后把执行信息写入crawl.log日志文件中,方便查找错误。
e)配置tomcat
把nutch-1.2.war复制到Tomcat下的webapps里,启动Tomcat,会自动deploy。再关闭Tomcat,到webapps\nutch-1.2目录下的WEB-INF\classes里的nutch-site.xml里,增加搜索的目录:

searcher.dir
D:\bishe\nutch-1.2\crawl(此处为检索存放的地址)

为了支持中文,在tomcat\conf的server.xml里的 里面,增加URIEncoding=“UTF-8” useBodyEncodingForURI="true"配置,最后如:
,每一项都用空格隔开。重启Tomcat,可以通过http://localhost:8080/nutch-1.2访问到Nutch了。
四、搜索结果

至此Nutch的安装基本完成。

 类似资料: