最近开始研究爬虫。决定先从Jspider着手。
因为Jspider是开源的,而且感觉框架做得不错。
第一步,down source http://j-spider.sourceforge.net/download/index.html
有两个版本:一个是编译好的,还有一个是源代码版本。
我比较贪心,决定从源代码开始玩。
下下来以后,用eclipse打开,上来就编译不过。
提示WorkerThread.getState()方法和父类Thread的方法返回值不一致。
看了下代码,WorkerThread.getState 方法只有一个操作,返回WorkerThread的类成员变量值,和父类毛关系没有啊。
又上网搜了下,建议也是把方法名改掉,于是把getState 给成getStateMod,编译通过。
接着开始build,ant build.xml。报错JAVA_HOME没有指向JDK,找不到javac,现在指向的是.../jre/。
一直不知道jre和jdk有什么区别,这下遇到了,原来只有jdk的bin里有javac阿。
在eclipse的build path里找到 add Variable添加了JAVA_HOME变量,使其指向 C:/Program Files/Java/jdk1.6.0_17。
再次build。还是把错,这次卡在junit上了,junit有failure。
靠阿,junit有failure又不让过。。。debug模式跟进去,发现base64Encode的结果跟预想不一致,怎么办?俺没学过密码学。
再看一下,貌似加密前的文字列中有一小段乱码,把程序的默认编码从UTF-8改成ISO-8859-1,过了。