当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

spider-web

网页版爬虫

授权协议 GPL

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者辛承志

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

spider-web 是爬虫的网页版，使用xml配置，支持大部分页面的爬取，支持爬取内容的保存、下载等。

其中配置文件格式为：

<?xml version="1.0" encoding="UTF-8"?>
<content>
	<url type="simple"><!-- simple/complex -->
		<url_head>http://www.oschina.net/tweets</url_head>
		<url_start></url_start>
		<url_end></url_end>
		<url_suffix></url_suffix>
	</url>
	<analysis type="list"><!-- single/list -->
		<elem name="title">
			<attr type="key" num="1"><!-- tag/class/key -->
				<name>link</name><!-- $http://my.oschina.net/(.)* -->
				<pro>http://my.oschina.net/(.)*/[0-9]*</pro>
			</attr>
			<attr type="class" num="2"><!-- tag/class/key -->
				<name>tweet</name>
				<pro>a</pro>
			</attr>
			<attr type="class" num="3">
				<name>txt</name>
				<pro>a</pro>
			</attr>
			<attr type="tag" num="4">
				<name>a</name>
				<pro>a</pro>
			</attr>
		</elem>
		<elem name="content">
			<attr type="key" num="1"><!-- tag/class/key -->
				<name>link</name><!-- $http://my.oschina.net/(.)* -->
				<pro>http://my.oschina.net/(.)*/[0-9]*</pro>
			</attr>
			<attr type="class" num="2"><!-- tag/class/key -->
				<name>tweet</name>
				<pro>a</pro>
			</attr>
			<attr type="class" num="3">
				<name>txt</name>
				<pro>a</pro>
			</attr>
		</elem>
	</analysis>
	<target type="download"><!-- download/text -->
	</target>
</content>

根据不同的页面进行设置，可以支持比较流行的页面爬取。

使用案例

webSpider----request

1.学习官网的实例来了解这些库中方法的用途 https://docs.python.org/3/library/urllib.request.html?highlight=request#module-urllib.request
获取免费代理池-使用Python3WebSpider / ProxyPool

1、克隆代码到本地（注意这个项目是基于python3的） https://github.com/Python3WebSpider/ProxyPool.git git clone https://github.com/Python3WebSpider/ProxyPool.git 2、cd到项目目录，安装依赖 pip3 install -r requirements.txt 3、启动redis,可以

相关资料

Java Web爬网程序库

问题内容：我想做一个基于Java的网络爬虫进行实验。我听说如果您是第一次使用Java编写Web爬虫，那是必须走的路。但是，我有两个重要问题。我的程序如何“访问”或“连接”到网页？请简要说明。（我了解从硬件到软件的抽象层的基础，这里我对Java抽象感兴趣）我应该使用哪些库？我假设我需要一个用于连接到网页的库，一个用于HTTP / HTTPS协议的库和一个用于HTML解析的库。问题答案：这是
网页版

欢迎使用幕布网页版，幕布网页版的访问地址为 mubu.com。页面右上角的选项分别为：首页：点击「首页」或左上角的「幕布」可回到网站第一页高级版：高级版功能介绍，可在此升级为高级版下载：所有平台的幕布都可以在此下载新功能：用幕布写的幕布更新文档，可以看到幕布从上线以来每个功能的更新时间和说明登录：如果已有幕布账号，可以点此登录注册：如果还没有幕布账号，可以点此注册
[实例]爬虫抓取网页

主要内容：导入所需模块,拼接URL地址,向URL发送请求,保存为本地文件,函数式编程修改程序本节讲解第一个 Python 爬虫实战案例：抓取您想要的网页，并将其保存至本地计算机。首先我们对要编写的爬虫程序进行简单地分析，该程序可分为以下三个部分：拼接 url 地址发送请求将照片保存至本地明确逻辑后，我们就可以正式编写爬虫程序了。导入所需模块本节内容使用 urllib 库来编写爬虫，下面导入程序所用模块：拼接URL地址定义 URL 变量，拼接 url 地址。代码如下所示：
4.4.3网页版

LSV网页版即Wish3D，是基于B/S模式的三维地球。不需要预先下载客户端，用户不再需要等待较长时间，大大提高了用户体验。Wish3DEarth实现了Web环境下的三维展示与空间信息管理，也能够基于Web平台进行信息发布、数据共享、交流协作，是完全基于B/S模式的。点击链接了解详情
12.2.3网页版

LSV网页版即Wish3D，是基于B/S模式的三维地球。不需要预先下载客户端，用户不再需要等待较长时间，大大提高了用户体验。Wish3DEarth实现了Web环境下的三维展示与空间信息管理，也能够基于Web平台进行信息发布、数据共享、交流协作，是完全基于B/S模式的。点击链接了解详情
基于C#实现网页爬虫

本文向大家介绍基于C#实现网页爬虫，包括了基于C#实现网页爬虫的使用技巧和注意事项，需要的朋友参考一下本文实例为大家分享了基于C#实现网页爬虫的详细代码，供大家参考，具体内容如下 HTTP请求工具类：功能： 1、获取网页html 2、下载网络图片多线程爬取网页代码：截图：以上就是本文的全部内容，希望对大家的学习有所帮助。

spider-web

同类工具

相关阅读

相关文章

相关问答

相关文档