当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

JSpider

Java网页爬虫
授权协议 LGPL
开发语言 Java
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 不详
投 递 者 别兴国
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

JSpider 是一个用 Java 实现的 WebSpider,JSpider 的执行格式如下:

jspider [URL] [ConfigName]

URL 一定要加上协议名称,如:http://,否则会报错。如果省掉 ConfigName,则采用默认配置。

JSpider 的行为是由配置文件具体配置的,比如采用什么插件,结果存储方式等等都在 conf\[ConfigName]\目录下设置。JSpider 默认的配置种类 很少,用途也不大。但是 JSpider 非常容易扩展,可以利用它开发强大的网页抓取与数据分析工具。要做到这些,需要对 JSpider 的原理有深入的了 解,然后根据自己的需求开发插件,撰写配置文件。

  •     为了更好的掌握Java,我开始学习JSpider这个开源软件,希望能从它的设计和实现上,更清楚的认识Java,了解更多Java的设计和实现技巧,以点带线,以线带面,去了解更多自己需要学习的东西。    作为开始,我下载并阅读了JSpider User Manual的前半部分,下载了源码。     根据文档的说明编译源码,遇到了错误,参照http://blog.nunnun.jp/Jspid

  •      首先学习JSpider的第一个应用,Check Errors,用来检查网页上的链接以及迭代出来的其他链接是否有效。     使用命令JSpider [url] [CheckErrors]。这里url指要检查的链接,CheckErrors指实现该功能的配置文件目录。     可见,使用的关键就是配置文件的编写。     配置文件一般放在conf/下面。实现CheckErrors功能的配置文

  • JSpider是一个用Java实现的WebSpider,JSpider的执行格式如下: jspider [URL] [ConfigName] URL一定要加上协议名称,如:http://,否则会报错。如果省掉ConfigName,则采用默认配置。 JSpider 的行为是由配置文件具体配置的,比如采用什么插件,结果存储方式等等都在conf\[ConfigName]\目录下设置。JSpider默认的

  •   最近开始研究爬虫。决定先从Jspider着手。   因为Jspider是开源的,而且感觉框架做得不错。   第一步,down source http://j-spider.sourceforge.net/download/index.html   有两个版本:一个是编译好的,还有一个是源代码版本。   我比较贪心,决定从源代码开始玩。   下下来以后,用eclipse打开,上来就编译不过。  

  • jspider.sh----------------------------------------------------------------------------------------------     JSpider从jspider.sh文件运行,在该shell脚本中指定了如下几个变量:     JSPIDER_HOME,JSpider的主目录,通过该目录去寻找conf/、outp

  • Jspider的學習应用     最近想写一個小东东,功能如下:     根据一個根网站的站点开始抓取信息,同时检索网站的url,然后依次检索url抓取网站信息.   考虑提取的url的方式:    1.采用读取网站网页,抓取url,实现如下:采用HttpClient或URLConnection获取网页信息,利用HTMLParser解析html网页获取url方式.    2.使用Jspider抓取

 相关资料
  • 主要内容:导入所需模块,拼接URL地址,向URL发送请求,保存为本地文件,函数式编程修改程序本节讲解第一个 Python 爬虫实战案例:抓取您想要的网页,并将其保存至本地计算机。 首先我们对要编写的爬虫程序进行简单地分析,该程序可分为以下三个部分: 拼接 url 地址 发送请求 将照片保存至本地 明确逻辑后,我们就可以正式编写爬虫程序了。 导入所需模块 本节内容使用 urllib 库来编写爬虫,下面导入程序所用模块: 拼接URL地址 定义 URL 变量,拼接 url 地址。代码如下所示:

  • 本文向大家介绍基于C#实现网页爬虫,包括了基于C#实现网页爬虫的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了基于C#实现网页爬虫的详细代码,供大家参考,具体内容如下 HTTP请求工具类: 功能: 1、获取网页html 2、下载网络图片 多线程爬取网页代码: 截图: 以上就是本文的全部内容,希望对大家的学习有所帮助。

  • 本文向大家介绍python爬虫爬取网页数据并解析数据,包括了python爬虫爬取网页数据并解析数据的使用技巧和注意事项,需要的朋友参考一下 1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 只要浏览器能够做的事情,原则上,爬虫都能够做到。 2.网络爬虫的功能 网络爬虫可以代替手工做很多事情,比如可以

  • 本文向大家介绍Python制作简单的网页爬虫,包括了Python制作简单的网页爬虫的使用技巧和注意事项,需要的朋友参考一下 1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 代码编辑器:Sublime Text 3.0 这次的网络爬虫需求背景我打算

  • 我正在尝试开发一个小的网络爬虫,它下载网页并搜索特定部分的链接。但当我运行这段代码时,“href”标记中的链接会变短。如: 原文链接:“/kids-toys-action-figures-accessories/b/ref=toys_hp_catblock_actnfig?ie=utf8&node=165993011&pf_rd_m=atvpdkikx0der&pf_rd_s=merchandis

  • 本文向大家介绍python动态网页批量爬取,包括了python动态网页批量爬取的使用技巧和注意事项,需要的朋友参考一下 四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页。我使用的是学信网,好了,网站截图如下:                    网站的代码

  • 本文向大家介绍python3制作捧腹网段子页爬虫,包括了python3制作捧腹网段子页爬虫的使用技巧和注意事项,需要的朋友参考一下 0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程。第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便。于是乎就自己照猫画虎,抓了点图片。 科技启迪未来,身为一个程序员,怎么能干这种事呢,还是爬

  • 本文向大家介绍基python实现多线程网页爬虫,包括了基python实现多线程网页爬虫的使用技巧和注意事项,需要的朋友参考一下 一般来说,使用线程有两种模式, 一种是创建线程要执行的函数, 把这个函数传递进Thread对象里,让它来执行. 另一种是直接从Thread继承,创建一个新的class,把线程执行的代码放到这个新的class里。 实现多线程网页爬虫,采用了多线程和锁机制,实现了广度优先算法