当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

WebPasser

开源爬虫框架

授权协议 MIT

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者宰父俊彦

操作系统跨平台

开源组织无

适用人群未知

软件概览

WebPasser是一款可配置的开源爬虫框架，提供爬虫控制台管理界面，通过配置解析各类网页内容，无需写一句java代码即可抽取所需数据。

1.包含强大的页面解析引擎，提供jsoup、xpath、正则表达式等处理链，通过简单配置即可抽取所需的指定内容。
2.提供爬虫控制管理界面，可实时监控抓取状态，动态添加抓取任务，动态配置定时任务，可对单个网页进行测试抓取。
3.提供抓取各阶段的触发器、拦截器，方便扩展。

控制台部分截图：

使用:

1.查看目标网站的页面特征，在xml中配置所需抓取内容。
2.在控制台添加一个抓取任务，将xml配置提交。
3.对单个网页测试或整个任务执行测试。
4.在webpasser.project中扩展数据持久化类或使用现有持久化类存储数据
5.设置定时任务。

相关资料

Python Scrapy爬虫框架

主要内容：Scrapy下载安装,创建Scrapy爬虫项目,Scrapy爬虫工作流程,settings配置文件Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架，该框架使用纯 Python 语言编写。Scrapy 框架应用广泛，常用于数据采集、网络监测，以及自动化测试等。提示：Twisted 是一个基于事件驱动的网络引擎框架，同样采用 Python 实现。 Scrapy下载安装 Scrapy 支持常见的主流平台，比如 Linux、Mac、Windows 等，因此你可以很方便的安装它
15 爬虫与反爬虫

有的时候，当我们的爬虫程序完成了，并且在本地测试也没有问题，爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候，我们很有可能是遇到了网站的反爬虫拦截。我们知道，网站一方面想要爬虫爬取网站，比如让搜索引擎爬虫去爬取网站的内容，来增加网站的搜索排名。另一方面，由于网站的服务器资源有限，过多的非真实的用户对网站的大量访问，会增加运营成本和服务器负担。因此，有些网站会设置一些反爬虫的措施。我
爬虫

这一章将会介绍使用一些新的模块(optparse,spider)去完成一个爬虫的web应用。爬虫其实就是一个枚举出一个网站上面的所有链接，以帮助你创建一个网站地图的web应用程序。而使用Python则可以很快的帮助你开发出一个爬虫脚本. 你可以创建一个爬虫脚本通过href标签对请求的响应内容进行解析，并且可以在解析的同时创建一个新的请求，你还可以直接调用spider模块来实现，这样就不需要自己去写
WebMagic 爬虫框架中文文档

WebMagic是我业余开发的一款简单灵活的爬虫框架。基于它你可以很容易的编写一个爬虫。这本小书以WebMagic入手，一方面讲解WebMagic的使用方式，另一方面讲解爬虫开发的一些惯用方案。
通用爬虫和聚焦爬虫

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫就是捜索引擎抓取系统，目的是将互联网上的所有的网页下载到本地，形成一个互联网内容的镜像备份。它决定着整个搜索引擎内容的丰富性和时效性，因此它的性能优劣直接影响着搜索引擎的效果。通用搜索引擎（Search Engine）工作原理第一步：抓取网页搜索引擎网络爬虫的基本工作流程如下：首先选取一部分的初始UR
python爬虫框架talonspider简单介绍

本文向大家介绍python爬虫框架talonspider简单介绍，包括了python爬虫框架talonspider简单介绍的使用技巧和注意事项，需要的朋友参考一下 1.为什么写这个？一些简单的页面，无需用比较大的框架来进行爬取，自己纯手写又比较麻烦因此针对这个需求写了talonspider: •1.针对单页面的item提取 - 具体介绍点这里 •2.spider模块 - 具体介绍点这里 2.介

同类工具

Combine MetaSeeker skycaiji WebPasser Sinawler DenseSpider xxl-crawler NETSpider

相关阅读

Python的Scrapy爬虫框架简单学习笔记 python3 Scrapy爬虫框架ip代理配置的方法使用 Node.js 开发资讯爬虫流程关于爬虫和反爬虫的简略方案分享 PHP+HTML+JavaScript+Css实现简单爬虫开发

相关文章

[实例]爬虫抓取网页第一个Python爬虫程序实战-Swing实现简单爬虫 Python爬虫实战：王者荣耀全套皮肤采集阳光电源Java开发

相关问答

网络爬虫 - 如何解决爬虫切片时只能获取单个数据项的问题?最佳爬虫确定与技术构建？爬虫 - 新站百度迟迟不收录？Java中的网络爬虫。下载网页问题 python爬虫 - https认证如何用代码实现？

相关文档

WebMagic 爬虫框架中文文档爬虫课件宇润爬虫框架 Yurun Crawler 帮助文档 Python 原生爬虫教程 Python 爬虫学习系列教程