当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

WebCrawler

网站数据采集工具

授权协议 BSD

开发语言 Python

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者白迪

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

WebCrawler 是一个网站数据采集工具，使用 scrapy 框架。

环境准备

[Scrapy] (http://scrapy.org/)
[MongoDB] (https://www.mongodb.org/)

已实现的功能

爬取网站发贴信息(标题、标题URL、作者、作者URL等)，以及下载图片到本地
爬取用户地理位置信息
增加 RandomUserAgent 功能,防止被 BAN
增加延时抓取功能，防止被 BAN
采用hash方法分散到多个目录进行管理，提高打开文件夹速度

快速开始

#: 安装必要 python 库

sudo pip install scrapy

sudo pip install pymongo

#: 下载数据到本地,并且保存相关信息到MongoDB中.

scrapy crawl collector


#: 建立本地http server，查看爬取数据

python -m SimpleHTTPServer 80

#: 打开浏览器输入http://localhost/data

使用案例

Web Crawler

爬虫相关概念域名域名只是一个网站的标识，不可以直接访问网站，只有当域名经过解析之后，这个域名才能成为一个URL(网址)。URL(网址)包含域名，是Internet上的地址簿，通过URL可以到达任何一个网站页面。通用爬虫：（通用性搜索引擎）--百度等：大多爬取得是无用信息聚焦爬虫：根据需求来爬取聚焦爬虫设计思路： 1、给一个URL（URL如何获取？） 2
网页爬虫(WebCrawler)更新策略

互联网是实时变化的，具有很强的动态性。网页更行策略主要用来决定何时更新之前已经下载的页面。常见的更新策略有以下三种： 1、历史参考策略顾明思议，历史参考策略是指根据页面以往的历史更新数据，预测该页面未来何时会发生变化。。一般来说，是通过泊松过程进行建模来预测的。 2、用户体检策略尽管搜索引擎针对某个查询条件能够返回数量巨大的结果，但是用户往往
Web Crawler

Implement a webpage Crawler to crawl webpages of http://www.wikipedia.org/. To simplify the question, let's use url instead of the the webpage content. Your crawler should: Call HtmlHelper.parseUrls(u
WebCrawler

WebCrawler WebCrawler is a metasearch engine that blends the top search results from Google Search and Yahoo! Search. WebCrawler also provides users the option to search for images, audio, video, news

相关资料

网络矿工采集器（原soukey采摘）

Soukey 采摘网站数据采集软件是一款基于.Net 平台的开源软件，也是网站数据采集软件类型中唯一一款开源软件。尽管 Soukey 采摘开源，但并不会影响软件功能的提供，甚至要比一些商用软件的功能还要丰富。Soukey 采摘当前提供的主要功能如下： 1. 多任务多线程数据采集，支持 POST 方式； 2. 可采集 Ajax 页面； 3. 支持 Cookie，支持手工登录采集数据
易得网络数据采集系统

本系统采用主流编程语言php和mysql数据库，您可以通过自定义采集规则，或者到我的网站下载共享的规则，针对网站或者网站群，采集您所需的数据，您也可以向所有人共享您的采集规则哦。通过数据浏览和编辑器，编辑您所采集的数据。本系统所有代码完全开源，并附有中文注释。
已采集数据

已采集数据所有入库成功或失败的数据都被记录在此，用于网址排重，防止重复采集
1.2.4.1 数据采集SDK

引入Hubble SDK包，按照业务需求通过代码埋入相关数据，这种是常规的，也是推荐的方式。这里不做详细描述，具体的使用方式请参考SDK使用文档，目前HubbleData支持SDK： iOS SDK Android SDK JS SDK)使用说明 JAVA SDK 微信小程序 SDK 打通App与H5 如果遇到HubbleData不支持的数据类型，推荐使用接口数据发送方式。
关闭数据采集

统计支持您根据自己的业务场景需求（如考虑隐私相关条款）设置对单一设备开启或关闭数据采集。当您判断该设备不应该进行数据采集时，可以通过设置不调用该设备的startWithAppId接口即可实现数据采集关闭
关闭数据采集

统计支持您根据自己的业务场景需求（如考虑隐私相关条款）设置对单一设备开启或关闭数据采集。当您判断该设备不应该进行数据采集时，可以通过设置不调用该设备的初始化函数，从而实现关闭该设备的数据采集。具体来说。如果您使用的是无埋点SDK：执行屏蔽调用 StatService.autoTrace API 即可；如果您使用的是手动埋点版本：执行屏蔽调用StatService.start API，此外，如
话说数据采集

作为监控系统来讲，首先得有监控数据，然后才能做后面的分析处理、绘图报警等事情，那falcon是如何处理数据采集这个问题的呢？我们先要考虑有哪些数据要采集，脑洞打开~ 机器负载信息，这个最常见，cpu.idle/load.1min/mem.memfree.percent/df.bytes.free.percent等等硬件信息，比如功耗、风扇转速、磁盘是否可写，系统组同学对这些比较关注服务监控数
4.1.2 话说数据采集

作为监控系统来讲，首先得有监控数据，然后才能做后面的分析处理、绘图报警等事情，那falcon是如何处理数据采集这个问题的呢？我们先要考虑有哪些数据要采集，脑洞打开~ 机器负载信息，这个最常见，cpu.idle/load.1min/mem.memfree.percent/df.bytes.free.percent等等硬件信息，比如功耗、风扇转速、磁盘是否可写，系统组同学对这些比较关注服务监控数

WebCrawler

环境准备

已实现的功能

快速开始

同类工具

相关阅读

相关文章

相关问答

相关文档