当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

Spiderman

Java网络蜘蛛/网络爬虫

授权协议 Apache

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者袁俊弼

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

Spiderman 是一个基于微内核+插件式架构的网络蜘蛛，它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。

最新提示：欢迎来体验最新版本Spiderman2，http://git.oschina.net/l-weiwei/Spiderman2 重新打造，重新起步，努力做更好用的爬虫！

主要特点

* 灵活、可扩展性强，微内核+插件式架构，Spiderman提供了多达 10 个扩展点。横跨蜘蛛线程的整个生命周期。
* 通过简单的配置就可以将复杂的网页内容解析为自己需要的业务数据，无需编写一句代码
* 多线程

怎么使用？

首先，确定好你的目标网站以及目标网页（即某一类你想要获取数据的网页，例如网易新闻的新闻页面）
然后，打开目标页面，分析页面的HTML结构，得到你想要数据的XPath，具体XPath怎么获取请看下文。
最后，在一个xml配置文件里填写好参数，运行Spiderman吧！

这里有个抓取案例

这里有篇文章介绍示例: http://my.oschina.net/laiweiwei/blog/100866

XPath获取技巧？

最新提示：发现Chrome浏览器的控制台可以直接对网页执行xpath调试，只需要输入$x("xpath 表达式")即可实时进行当前打开网页的xpath调试，非常棒！

这里只说下Chrome浏览器，其他浏览器估计也差不多，只不过插件不同而已。

首先，下载xpathonclick插件,https://chrome.google.com/webstore/search/xpathonclick
安装完毕之后，打开Chrome浏览器，可以看到右上角有个“X Path” 图标。
在浏览器打开你的目标网页，然后点击右上角的那个图片，然后点击网标上你想要获取XPath的地方，例如某个标题
这时候按住F12打开JS控制台，拖到底部，可以看到一串XPath内容
记住，这个内容不是绝对OK的，你可能还需要做些修改，因此，你最好还是去学习下XPath语法
学习XPath语法的地方:http://www.w3school.com.cn/xpath/index.asp

使用案例

【poj 1925】Spiderman 题意＆题解＆代码（Ｃ＋＋）

题目链接： http://poj.org/problem?id=1925 题意：输入Ｋ组数据，每组数据输入ｎ个柱子的信息，每个柱子信息为ｘ坐标和高度ｈ，蜘蛛侠需要从第一的柱子通过不断荡蛛丝荡到最后一个柱子，荡的规则：１．蜘蛛侠不会撞到柱子上，假如他在高度为ｈ的位置ｊ通过柱子ｉ前进，那么它会直接荡到同样高度为ｈ位置为ｘ[ｉ]＋ｘ[ｉ]－ｊ的位置上，不会受中间柱子的阻挡（ｘ[ｉ]表示柱子ｉ的ｘ坐标
Spiderman’s workout (dynamic programming)

题目： Spiderman’s workout Time Limit:1000MS Memory Limit:65536K Total Submit:667 Accepted:244 Special Judged Description Staying fit is important for every super hero, and Spiderman is no exception. E
Spiderman源码分析（五）Parser

这节我们来看看Spiderman的Parser的设计和实现。对于爬虫而言，网页内容的多样性直接决定了解析方式的多样性和复杂性，所以在设计上必须要将不变和变进行仔细总结和分离，一方面要达到稳定的内在架构能适应多种不同的解析方式，另一方面还要具备良好的扩展性从而支持为单个网页的针对其不同特性进行解析的借口。这一节首先从总体设计上来描述spide
POJ 1925 Spiderman

题目大意：给出n个建筑，每个建筑以两个数x，y表示，x代表它在横轴上的位置，y代表这个建筑的高度。所有建筑的高度都大于等于第一个建筑的高度。所有建筑输入顺序按照x，y从小到达的顺序排列。蜘蛛侠在第一个建筑上，他要去最后一个建筑救女朋友。一直他每一次摇摆都会到关于建筑对称的位置。求到最后一个建筑的最小摇摆次数。解题思路： dp[i]代表着当他到x轴i的位置时最少摇摆了几次。因为每次摇摆他都到了

Spiderman

主要特点

怎么使用？

这里有个抓取案例

XPath获取技巧？

同类工具

相关阅读

相关文章

相关问答

相关文档