当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

skycaiji

基于 PHP 的数据采集发布爬虫系统

授权协议 Apache

开发语言 PHP JavaScript

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者鲁华皓

操作系统跨平台

开源组织无

适用人群未知

软件概览

蓝天采集器(skycaiji)是一款免费的数据采集发布爬虫软件，采用php+mysql开发，可部署在云服务器，几乎能采集所有类型的网页，无缝对接各类CMS建站程序，免登录实时发布数据，全自动无需人工干预！是大数据、云时代网站数据自动化采集的最佳云端爬虫软件。

支持 php5.4~php7
支持多级、多页、分页抓取
支持正则、xpath、json 匹配内容
可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等
实现定时定量全自动采集发布
图片本地化，可自定义图片下载目录
代理ip防屏蔽、将内容翻译成各类语言
可循环入库同页面格式一致的数据列表
可以配合谷歌浏览器实现网页渲染自动加载ajax内容
界面自适应宽度，手机也可以操作采集

相关资料

蓝天数据采集发布系统

蓝天采集器（SkyCaiji），网页爬虫系统，采用 PHP+Mysql 开发，可部署在云端服务器和虚拟主机中，使用浏览器即可采集数据。软件免费无限制使用，规则和插件可自定义开发。
第十四章数据采集与爬虫

一数据采集概念任何完整的大数据平台，一般包括以下的几个过程：数据采集数据存储数据处理数据展现（可视化，报表和监控）其中，数据采集是所有数据系统必不可少的，随着大数据越来越被重视，数据采集的挑战也变的尤为突出。这其中包括：数据源多种多样数据量大，变化快如何保证数据采集的可靠性的性能如何避免重复数据如何保证数据的质量我们今天就来看看当前可用的六款数据采集的产品，重点关注它们是
基于python爬虫数据处理(详解)

本文向大家介绍基于python爬虫数据处理(详解)，包括了基于python爬虫数据处理(详解)的使用技巧和注意事项，需要的朋友参考一下一、首先理解下面几个函数设置变量 length()函数 char_length() replace() 函数 max() 函数 1.1、设置变量 set @变量名=值 1.2 、length()函数 char_length()函数区别 1.3、 replace(
采集帮助 - 数据的保存和发布

数据的保存和发布：数据导入方式有两种，节点导入方式（图4.1）和批量导入方式（图4.2）。前者需在“采集节点管理”页面选择节点后，对该节点下的数据进行导入；后者则在图“导出所有内容”页面，直接把采集到的数据全部导入数据库。（图4.1）（图4.2）
基于C#实现网页爬虫

本文向大家介绍基于C#实现网页爬虫，包括了基于C#实现网页爬虫的使用技巧和注意事项，需要的朋友参考一下本文实例为大家分享了基于C#实现网页爬虫的详细代码，供大家参考，具体内容如下 HTTP请求工具类：功能： 1、获取网页html 2、下载网络图片多线程爬取网页代码：截图：以上就是本文的全部内容，希望对大家的学习有所帮助。
php实现简单爬虫的开发

本文向大家介绍php实现简单爬虫的开发，包括了php实现简单爬虫的开发的使用技巧和注意事项，需要的朋友参考一下有时候因为工作、自身的需求，我们都会去浏览不同网站去获取我们需要的数据，于是爬虫应运而生，下面是我在开发一个简单爬虫的经过与遇到的问题。开发一个爬虫，首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章，并获取它的链接，以便我快速阅读。按照
6.7 分布式爬虫

互联网时代的信息爆炸是很多人倍感头痛的问题，应接不暇的新闻、信息、视频，无孔不入地侵占着我们的碎片时间。但另一方面，在我们真正需要数据的时候，却感觉数据并不是那么容易获取的。比如我们想要分析现在人在讨论些什么，关心些什么。甚至有时候，可能我们只是暂时没有时间去一一阅览心仪的小说，但又想能用技术手段把它们存在自己的资料库里。哪怕是几个月或一年后再来回顾。再或者我们想要把互联网上这些稍纵即逝的有用信息
易得网络数据采集系统

本系统采用主流编程语言php和mysql数据库，您可以通过自定义采集规则，或者到我的网站下载共享的规则，针对网站或者网站群，采集您所需的数据，您也可以向所有人共享您的采集规则哦。通过数据浏览和编辑器，编辑您所采集的数据。本系统所有代码完全开源，并附有中文注释。

同类工具

urlwatch Sherlock Social Ebot ItSucks Leopdo skycaiji opm-server-mirror DotNetWikiBot

相关阅读

关于爬虫和反爬虫的简略方案分享如何基于Python爬虫爬取美团酒店信息基于nodejs 的多页面爬虫实例代码零基础写python爬虫之爬虫的定义及URL构成 PHP+HTML+JavaScript+Css实现简单爬虫开发

相关文章

网络爬虫是什么 Java10 基于时间的发布版本控制 8.10 快手-数据采集-二面凉经 [实例]爬虫下载小说 [实例]爬虫抓取网页

相关问答

如何使用PHP curl发布JSON数据？基于第二数据帧中的值范围的子集数据帧如何基于第一个数据集选择链接两个数据集基于操作系统的Maven antrun插件集属性 Matlab中矩阵数据的采集与检索

相关文档

蓝天数据采集发布系统 Python 爬虫学习系列教程爬虫课件数据采集从入门到放弃 Python 原生爬虫教程