当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

JSpider

Java网页爬虫

授权协议 LGPL

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区不详

投递者别兴国

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

JSpider 是一个用 Java 实现的 WebSpider，JSpider 的执行格式如下：

jspider [URL] [ConfigName]

URL 一定要加上协议名称，如：http://，否则会报错。如果省掉 ConfigName，则采用默认配置。

JSpider 的行为是由配置文件具体配置的，比如采用什么插件，结果存储方式等等都在 conf\[ConfigName]\目录下设置。JSpider 默认的配置种类很少，用途也不大。但是 JSpider 非常容易扩展，可以利用它开发强大的网页抓取与数据分析工具。要做到这些，需要对 JSpider 的原理有深入的了解，然后根据自己的需求开发插件，撰写配置文件。

使用案例

JSpider学习一 —— 基础

为了更好的掌握Java，我开始学习JSpider这个开源软件，希望能从它的设计和实现上，更清楚的认识Java，了解更多Java的设计和实现技巧，以点带线，以线带面，去了解更多自己需要学习的东西。作为开始，我下载并阅读了JSpider User Manual的前半部分，下载了源码。根据文档的说明编译源码，遇到了错误，参照http://blog.nunnun.jp/Jspid
JSpider学习二 —— 应用示例

首先学习JSpider的第一个应用，Check Errors，用来检查网页上的链接以及迭代出来的其他链接是否有效。使用命令JSpider [url] [CheckErrors]。这里url指要检查的链接，CheckErrors指实现该功能的配置文件目录。可见，使用的关键就是配置文件的编写。配置文件一般放在conf/下面。实现CheckErrors功能的配置文
JSpider是一个用Java实现的WebSpider

JSpider是一个用Java实现的WebSpider，JSpider的执行格式如下： jspider [URL] [ConfigName] URL一定要加上协议名称，如：http://，否则会报错。如果省掉ConfigName，则采用默认配置。 JSpider 的行为是由配置文件具体配置的，比如采用什么插件，结果存储方式等等都在conf\[ConfigName]\目录下设置。JSpider默认的
初探Jspider

最近开始研究爬虫。决定先从Jspider着手。因为Jspider是开源的，而且感觉框架做得不错。第一步，down source http://j-spider.sourceforge.net/download/index.html 有两个版本：一个是编译好的，还有一个是源代码版本。我比较贪心，决定从源代码开始玩。下下来以后，用eclipse打开，上来就编译不过。
JSpider学习三 —— 启动代码分析

jspider.sh---------------------------------------------------------------------------------------------- JSpider从jspider.sh文件运行，在该shell脚本中指定了如下几个变量： JSPIDER_HOME，JSpider的主目录，通过该目录去寻找conf/、outp
Ｊｓｐｉｄｅｒ的學習应用

Ｊｓｐｉｄｅｒ的學習应用　　最近想写一個小东东,功能如下: 　　　　根据一個根网站的站点开始抓取信息,同时检索网站的ｕｒｌ,然后依次检索ｕｒｌ抓取网站信息. 　　考虑提取的ｕｒｌ的方式: 　　　１.采用读取网站网页,抓取ｕｒｌ,实现如下:采用ＨｔｔｐＣｌｉｅｎｔ或ＵＲＬＣｏｎｎｅｃｔｉｏｎ获取网页信息,利用ＨＴＭＬParser解析htmｌ网页获取ｕｒｌ方式. 　　　２.使用Ｊｓｐｉｄｅｒ抓取

JSpider

同类工具

相关阅读

相关文章

相关问答

相关文档