当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

NETSpider

网站数据采集软件
授权协议 GPL
开发语言 C# .NET
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 国产
投 递 者 张鸿宝
操作系统 Windows
开源组织
适用人群 未知
 软件概览

NETSpider网站数据采集软件是一款基于.Net平台的开源软件。
软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的.
NETSpider采摘当前提供的主要功能如下:

1.    多任务多线程数据采集,支持POST方式(待定);
2.    可采集Ajax页面;
3.    支持Cookie,支持手工登录采集数据;
4.    支持采集事务;
5.    支持数据自动及手工导出,导出格式为:文本、Excel、Access、MSSql、Mysql等;
6.    支持在线发布数据;
7.    支持导航网址的采集,导航深度不限;
8.    支持自动翻页;
9.    支持文件下载,可以采集图片、Flash及其他文件;
10. 支持采集结果数据的加工,包括替换、附前缀后缀、截取等操作,支持正则;
11. 采集网址定义不仅支持基本参数定义,也可外接字典数据作为网址参数,进行数据采集;
12. 支持一个任务多实例运行;
13. 提供计划任务,计划任务支持NETSpider采集任务、外部可执行文件任务、数据库存储过程任务(还在开发中);
14. 计划任务执行周期支持每天、每周及自定义运行间隔;最小单位为:半小时;
15. 支持任务触发器,即可在采集任务完成后,自动触发执行其他任务(包括可执行文件或存储过程)。
16. 完善的日志功能:系统日志、任务执行日志、出错日志等等;
17. 系统提供MINI浏览器可用于捕获Cookie或POST数据;

NETSpider采集器并不限制您是否商用此软件,源码完全开放,


===================以下为更新内容===================================


1. NETSpider于2014年10月1日开放

  • NetSpider 网络蜘蛛1.0 的简介 支持多线程下载和 自动断点续传。特别适合对网站上的图象文件进行自动下载,是图片 搜集者的利器。详细的使用说明见: 网络蜘蛛是一个自动搜索HTML页面并下载指定文件的软件。最初设计它是为了下载网站上的图片,想想看,面对那些动辄拥有数百幅图片的网站,你是否有耐心和时间一一点击查看和下载?而且在目前上网费用如此高昂的年代,在网站上慢慢地手工浏览和下载图片是不是

 相关资料
  • 本系统采用主流编程语言php和mysql数据库,您可以通过自定义采集规则,或者到我的网站下载共享的规则,针对网站或者网站群,采集您所需的数据,您也可以向所有人共享您的采集规则哦。通过数据浏览和编辑器,编辑您所采集的数据。 本系统所有代码完全开源,并附有中文注释。

  • 已采集数据 所有入库成功或失败的数据都被记录在此,用于网址排重,防止重复采集

  • 引入Hubble SDK包,按照业务需求通过代码埋入相关数据,这种是常规的,也是推荐的方式。这里不做详细描述,具体的使用方式请参考SDK使用文档,目前HubbleData支持SDK: iOS SDK Android SDK JS SDK)使用说明 JAVA SDK 微信小程序 SDK 打通App与H5 如果遇到HubbleData不支持的数据类型,推荐使用接口数据发送方式。

  • 统计支持您根据自己的业务场景需求(如考虑隐私相关条款)设置对单一设备开启或关闭数据采集。 当您判断该设备不应该进行数据采集时,可以通过设置不调用该设备的startWithAppId接口即可实现数据采集关闭

  • 统计支持您根据自己的业务场景需求(如考虑隐私相关条款)设置对单一设备开启或关闭数据采集。 当您判断该设备不应该进行数据采集时,可以通过设置不调用该设备的初始化函数,从而实现关闭该设备的数据采集。具体来说。 如果您使用的是无埋点SDK:执行屏蔽调用 StatService.autoTrace API 即可; 如果您使用的是手动埋点版本:执行屏蔽调用StatService.start API,此外,如

  • 作为监控系统来讲,首先得有监控数据,然后才能做后面的分析处理、绘图报警等事情,那falcon是如何处理数据采集这个问题的呢? 我们先要考虑有哪些数据要采集,脑洞打开~ 机器负载信息,这个最常见,cpu.idle/load.1min/mem.memfree.percent/df.bytes.free.percent等等 硬件信息,比如功耗、风扇转速、磁盘是否可写,系统组同学对这些比较关注 服务监控数