当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

网络矿工采集器（原soukey采摘）

网站数据采集软件

授权协议 BSD

开发语言 C# .NET

所属分类应用工具、网络爬虫

软件类型开源软件

地区不详

投递者仰雅昶

操作系统 Windows

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

Soukey 采摘网站数据采集软件是一款基于.Net 平台的开源软件，也是网站数据采集软件类型中唯一一款开源软件。尽管 Soukey 采摘开源，但并不会影响软件功能的提供，甚至要比一些商用软件的功能还要丰富。Soukey 采摘当前提供的主要功能如下：

1.    多任务多线程数据采集，支持 POST 方式；
2.    可采集 Ajax 页面；
3.    支持 Cookie，支持手工登录采集数据；
4.    支持采集事务；
5.    支持数据自动及手工导出，导出格式为：文本、Excel、Access、MSSql、Mysql 等；
6.    支持在线发布数据；
7.    支持导航网址的采集，导航深度不限；
8.    支持自动翻页；
9.    支持文件下载，可以采集图片、Flash 及其他文件；
10. 支持采集结果数据的加工，包括替换、附前缀后缀、截取等操作，支持正则；
11. 采集网址定义不仅支持基本参数定义，也可外接字典数据作为网址参数，进行数据采集；
12. 支持一个任务多实例运行；
13. 提供计划任务，计划任务支持 Soukey 采集任务、外部可执行文件任务、数据库存储过程任务；
14. 计划任务执行周期支持每天、每周及自定义运行间隔；最小单位为：半小时；
15. 支持任务触发器，即可在采集任务完成后，自动触发执行其他任务（包括可执行文件或存储过程）。
16. 完善的日志功能：系统日志、任务执行日志、出错日志等等；

17. 系统提供 MINI 浏览器可用于捕获 Cookie 或 POST 数据；

Soukey 采摘并不限制您是否商用此软件，源码完全开放，

===================以下为更新内容===================================

soukey 采摘正式更名为网络矿工采集器开源版

网络矿工开源版自2010年之后未再进行开发，所以重启开发计划，依旧开源，最新代码还是在 sourceforge 上，感兴趣的朋友可参与其中。

使用案例

网络爬虫相关软件以及论文检索与推荐网站调研

最近接到一个项目，需要做一个基于网络爬虫技术的论文检索与推荐的网站，所以打算先对市面上已有的基于此技术的软件进行一次统计和分析，以备后面查询使用。一. 网络爬虫相关软件 1. 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting，他同时也是Lucene、Hado
从网络上收集的爬虫工具，推荐基于python的工具

Java爬虫 1、Arachnid Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。特点：微型爬虫框架，含有

网络矿工采集器（原soukey采摘）

同类工具

相关阅读

相关文章

相关问答

相关文档