Soukey 采摘网站数据采集软件是一款基于.Net 平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管 Soukey 采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。Soukey 采摘当前提供的主要功能如下:
1. 多任务多线程数据采集,支持 POST 方式;
2. 可采集 Ajax 页面;
3. 支持 Cookie,支持手工登录采集数据;
4. 支持采集事务;
5. 支持数据自动及手工导出,导出格式为:文本、Excel、Access、MSSql、Mysql 等;
6. 支持在线发布数据;
7. 支持导航网址的采集,导航深度不限;
8. 支持自动翻页;
9. 支持文件下载,可以采集图片、Flash 及其他文件;
10. 支持采集结果数据的加工,包括替换、附前缀后缀、截取等操作,支持正则;
11. 采集网址定义不仅支持基本参数定义,也可外接字典数据作为网址参数,进行数据采集;
12. 支持一个任务多实例运行;
13. 提供计划任务,计划任务支持 Soukey 采集任务、外部可执行文件任务、数据库存储过程任务;
14. 计划任务执行周期支持每天、每周及自定义运行间隔;最小单位为:半小时;
15. 支持任务触发器,即可在采集任务完成后,自动触发执行其他任务(包括可执行文件或存储过程)。
16. 完善的日志功能:系统日志、任务执行日志、出错日志等等;
17. 系统提供 MINI 浏览器可用于捕获 Cookie 或 POST 数据;
Soukey 采摘并不限制您是否商用此软件,源码完全开放,
===================以下为更新内容===================================
soukey 采摘正式更名为网络矿工采集器开源版
网络矿工开源版自2010年之后未再进行开发,所以重启开发计划,依旧开源,最新代码还是在 sourceforge 上,感兴趣的朋友可参与其中。
最近接到一个项目,需要做一个基于网络爬虫技术的论文检索与推荐的网站,所以打算先对市面上已有的基于此技术的软件进行一次统计和分析,以备后面查询使用。 一. 网络爬虫相关软件 1. 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hado
Java爬虫 1、Arachnid Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。 特点:微型爬虫框架,含有
本系统采用主流编程语言php和mysql数据库,您可以通过自定义采集规则,或者到我的网站下载共享的规则,针对网站或者网站群,采集您所需的数据,您也可以向所有人共享您的采集规则哦。通过数据浏览和编辑器,编辑您所采集的数据。 本系统所有代码完全开源,并附有中文注释。
采集流程: 采集一般可以分为3个过程:1.设置采集规则;2.采集数据内容;3.导出内容,这3个内容是可以独立分开来的。 设置采集规则:这个就是在操作中的添加采集节点,并对这个节点规则进行设置,比如:设置采集内容列表的地址、指定采集标题或者内容的位置(规则)、设置采集内容过滤规则。这个规则是采集最根本最基础的东西,采集规则可以导入导出,方便对这个采集规则进行分享。 采集数据内容:根据不同情况对数据采
关于采集: 什么是采集呢?我们可以这样理解,我们打开一个网站,看到有一篇文章很不错,于是将文章的标题和内容复制,然后将这篇文章转到我们的网站上,这个过程就可以称作采集,将别人网站上对自己有用的信息转到自己网站上。 采集器也是这样,不过整个过程是由电脑来完成的,我们复制人家的标题和内容,是在知道什么地方是内容,什么地方是标题前提下进行操作的,但电脑是不知道的,所以我们要告诉电脑怎么识别怎么采,这就是
网址索引: (图2.111) 上图(图2.111)是创建采集节点页面的网址索引页截图,这里主要填写目标站列表地址和相应的规则。下面将分别把节点基本信息、列表网址获取规则和文章网址匹配规则介绍一下。 节点基本信息 在节点基本信息下有两个地方需要注意,节点名称和目标页面编码。节点名称虽然允许为空,但最好能填上简单易懂文字进行标识;目标页面编码指的是目标文章页面源代码中的charset值,这个设置是为了
已采集数据 所有入库成功或失败的数据都被记录在此,用于网址排重,防止重复采集