当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

WebCrawler

网站数据采集工具
授权协议 BSD
开发语言 Python
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 国产
投 递 者 白迪
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

WebCrawler 是一个网站数据采集工具,使用 scrapy 框架。

环境准备

已实现的功能

  • 爬取网站发贴信息(标题、标题URL、作者、作者URL等),以及下载图片到本地
  • 爬取用户地理位置信息
  • 增加 RandomUserAgent 功能,防止被 BAN
  • 增加延时抓取功能,防止被 BAN
  • 采用hash方法分散到多个目录进行管理,提高打开文件夹速度

快速开始

#: 安装必要 python 库

sudo pip install scrapy

sudo pip install pymongo

#: 下载数据到本地,并且保存相关信息到MongoDB中.

scrapy crawl collector


#: 建立本地http server,查看爬取数据

python -m SimpleHTTPServer 80

#: 打开浏览器输入http://localhost/data
  • 爬虫相关概念 域名 域名只是一个网站的标识,不可以直接访问网站,只有当域名经过解析之后,这个域名才能成为一个URL(网址)。URL(网址)包含域名,是Internet上的地址簿,通过URL可以到达任何一个网站页面。 通用爬虫: (通用性搜索引擎)--百度等:大多爬取得是无用信息 聚焦爬虫: 根据需求来爬取 聚焦爬虫设计思路:         1、给一个URL(URL如何获取?)         2

  •          互联网是实时变化的,具有很强的动态性。网页更行策略主要用来决定何时更新之前已经下载的页面。常见的更新策略有以下三种:  1、历史参考策略         顾明思议,历史参考策略是指根据页面以往的历史更新数据,预测该页面未来何时会发生变化。。一般来说,是通过泊松过程进行建模来预测的。 2、用户体检策略         尽管搜索引擎针对某个查询条件能够返回数量巨大的结果,但是用户往往

  • Implement a webpage Crawler to crawl webpages of http://www.wikipedia.org/. To simplify the question, let's use url instead of the the webpage content. Your crawler should: Call HtmlHelper.parseUrls(u

  • WebCrawler WebCrawler is a metasearch engine that blends the top search results from Google Search and Yahoo! Search. WebCrawler also provides users the option to search for images, audio, video, news

 相关资料
  • Soukey 采摘网站数据采集软件是一款基于.Net 平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管 Soukey 采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。Soukey 采摘当前提供的主要功能如下: 1.    多任务多线程数据采集,支持 POST 方式; 2.    可采集 Ajax 页面; 3.    支持 Cookie,支持手工登录采集数据

  • 本系统采用主流编程语言php和mysql数据库,您可以通过自定义采集规则,或者到我的网站下载共享的规则,针对网站或者网站群,采集您所需的数据,您也可以向所有人共享您的采集规则哦。通过数据浏览和编辑器,编辑您所采集的数据。 本系统所有代码完全开源,并附有中文注释。

  • 已采集数据 所有入库成功或失败的数据都被记录在此,用于网址排重,防止重复采集

  • 引入Hubble SDK包,按照业务需求通过代码埋入相关数据,这种是常规的,也是推荐的方式。这里不做详细描述,具体的使用方式请参考SDK使用文档,目前HubbleData支持SDK: iOS SDK Android SDK JS SDK)使用说明 JAVA SDK 微信小程序 SDK 打通App与H5 如果遇到HubbleData不支持的数据类型,推荐使用接口数据发送方式。

  • 统计支持您根据自己的业务场景需求(如考虑隐私相关条款)设置对单一设备开启或关闭数据采集。 当您判断该设备不应该进行数据采集时,可以通过设置不调用该设备的startWithAppId接口即可实现数据采集关闭

  • 统计支持您根据自己的业务场景需求(如考虑隐私相关条款)设置对单一设备开启或关闭数据采集。 当您判断该设备不应该进行数据采集时,可以通过设置不调用该设备的初始化函数,从而实现关闭该设备的数据采集。具体来说。 如果您使用的是无埋点SDK:执行屏蔽调用 StatService.autoTrace API 即可; 如果您使用的是手动埋点版本:执行屏蔽调用StatService.start API,此外,如

  • 作为监控系统来讲,首先得有监控数据,然后才能做后面的分析处理、绘图报警等事情,那falcon是如何处理数据采集这个问题的呢? 我们先要考虑有哪些数据要采集,脑洞打开~ 机器负载信息,这个最常见,cpu.idle/load.1min/mem.memfree.percent/df.bytes.free.percent等等 硬件信息,比如功耗、风扇转速、磁盘是否可写,系统组同学对这些比较关注 服务监控数

  • 作为监控系统来讲,首先得有监控数据,然后才能做后面的分析处理、绘图报警等事情,那falcon是如何处理数据采集这个问题的呢? 我们先要考虑有哪些数据要采集,脑洞打开~ 机器负载信息,这个最常见,cpu.idle/load.1min/mem.memfree.percent/df.bytes.free.percent等等 硬件信息,比如功耗、风扇转速、磁盘是否可写,系统组同学对这些比较关注 服务监控数