当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

Hawk_Crawler

数据采集和清洗工具
授权协议 GPL
开发语言 C#
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 国产
投 递 者 宁飞宇
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。

Hawk的含义为“鹰”,能够高效,准确地捕杀猎物。

HAWK使用C# 编写,其前端界面使用WPF开发,支持插件扩展。通过图形化操作,能够快速建立解决方案。

GitHub地址:https://github.com/ferventdesert/Hawk

其Python等价的实现是etlpy:http://www.cnblogs.com/buptzym/p/5320552.html

笔者专门为其开发的工程文件已公开在GitHub:https://github.com/ferventdesert/Hawk-Projects

使用时,点击文件,加载工程即可加载。不想编译的话,可执行文件在:https://github.com/ferventdesert/Hawk/tree/master/Versions

编译路径在: Hawk.Core\Hawk.Core.sln

以获取大众点评的所有北京美食为例,使用本软件可在10分钟内完成配置,在1小时之内自动并行抓取全部内容,并能监视子线程工作情况。而手工编写代码,即使是使用python,一个熟练的程序员也可能需要一天以上:

1.gif-1001.8kB

视频演示,复杂度由小到大:

  • Hawk: Advanced Crawler& ETL toolwritten in C#/WPF 1.软件介绍   参考网址:https://www.cnblogs.com/buptzym/p/5454190.html   Hawk3已经发布,本文的很多信息已经不完整或过期,所有更新信息和下载地址都可参考下面的链接: https://github.com/ferventdesert/Hawk H

 相关资料
  • 理想中,我们获取的数据都是一样的格式,可是现实中,会有许多脏数据,有时候是数据太冗余,有时候是数据缺失,有时候是同一种类数据拥有不同的数据格式。比如生日,有的人使用阿拉伯数字,有的人使用英文简写,有的人则是加入了中文字符。 如果只是简单的某一列数据问题,我们可以写一个脚本进行处理,可是,当数据太复杂,数据量太大,我们自己编写脚步就太浪费时间和精力了。有没有什么可视化工具,可以像操作Excel表格很

  • 数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。 灰色框中蓝色箭头对应的是离线处理部分。主要工作是 从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。 对清洗出的特征和标注数据进行处理,例如样本采样,样本调权,异常点去除,特征归一化处理,特征变化,特征组合等过程。最终生成的数据主要是供模型训练使用。 灰色框中

  • 已采集数据 所有入库成功或失败的数据都被记录在此,用于网址排重,防止重复采集

  • 引入Hubble SDK包,按照业务需求通过代码埋入相关数据,这种是常规的,也是推荐的方式。这里不做详细描述,具体的使用方式请参考SDK使用文档,目前HubbleData支持SDK: iOS SDK Android SDK JS SDK)使用说明 JAVA SDK 微信小程序 SDK 打通App与H5 如果遇到HubbleData不支持的数据类型,推荐使用接口数据发送方式。

  • 统计支持您根据自己的业务场景需求(如考虑隐私相关条款)设置对单一设备开启或关闭数据采集。 当您判断该设备不应该进行数据采集时,可以通过设置不调用该设备的startWithAppId接口即可实现数据采集关闭

  • 统计支持您根据自己的业务场景需求(如考虑隐私相关条款)设置对单一设备开启或关闭数据采集。 当您判断该设备不应该进行数据采集时,可以通过设置不调用该设备的初始化函数,从而实现关闭该设备的数据采集。具体来说。 如果您使用的是无埋点SDK:执行屏蔽调用 StatService.autoTrace API 即可; 如果您使用的是手动埋点版本:执行屏蔽调用StatService.start API,此外,如