在论坛上面看到一个爬虫工具Arachnid Web Spider Framework,看了一下源代码,相当的简练和漂亮。
所以决定在这个上面做点东西出来
1.实现除html以外的页面的检索和分析,例如wap网页等,做成基于手机的搜索引擎。
2.把tomcat,j2sdk等嵌入到代码中,并嵌入简单的纯java的数据库,例如hsqldb,完善爬虫功能。
3.制作一个图形换的管理控制台,可以对抓取的范围,关键字的整理等进行配置。
4.对数据冗余进行处理。
还有一点很重要的就是要增加多线程处理,使得程序的运行效率更高。