当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

skycaiji

基于 PHP 的数据采集发布爬虫系统
授权协议 Apache
开发语言 PHP JavaScript
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 国产
投 递 者 鲁华皓
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

蓝天采集器(skycaiji)是一款免费的数据采集发布爬虫软件,采用php+mysql开发,可部署在云服务器,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登录实时发布数据,全自动无需人工干预!是大数据、云时代网站数据自动化采集的最佳云端爬虫软件。

  • 支持 php5.4~php7

  • 支持多级、多页、分页抓取

  • 支持正则、xpath、json 匹配内容

  • 可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等

  • 实现定时定量全自动采集发布

  • 图片本地化,可自定义图片下载目录

  • 代理ip防屏蔽、将内容翻译成各类语言

  • 可循环入库同页面格式一致的数据列表

  • 可以配合谷歌浏览器实现网页渲染自动加载ajax内容

  • 界面自适应宽度,手机也可以操作采集

 相关资料
  • 蓝天采集器(SkyCaiji),网页爬虫系统,采用 PHP+Mysql 开发,可部署在云端服务器和虚拟主机中,使用浏览器即可采集数据。软件免费无限制使用,规则和插件可自定义开发。

  • 一 数据采集概念 任何完整的大数据平台,一般包括以下的几个过程: 数据采集 数据存储 数据处理 数据展现(可视化,报表和监控) 其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。这其中包括: 数据源多种多样 数据量大,变化快 如何保证数据采集的可靠性的性能 如何避免重复数据 如何保证数据的质量 我们今天就来看看当前可用的六款数据采集的产品,重点关注它们是

  • 本文向大家介绍基于python爬虫数据处理(详解),包括了基于python爬虫数据处理(详解)的使用技巧和注意事项,需要的朋友参考一下 一、首先理解下面几个函数 设置变量 length()函数 char_length() replace() 函数 max() 函数 1.1、设置变量 set @变量名=值 1.2 、length()函数 char_length()函数区别 1.3、 replace(

  • 数据的保存和发布: 数据导入方式有两种,节点导入方式(图4.1)和批量导入方式(图4.2)。前者需在“采集节点管理”页面选择节点后,对该节点下的数据进行导入;后者则在图“导出所有内容”页面,直接把采集到的数据全部导入数据库。 (图4.1) (图4.2)

  • 本文向大家介绍基于C#实现网页爬虫,包括了基于C#实现网页爬虫的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了基于C#实现网页爬虫的详细代码,供大家参考,具体内容如下 HTTP请求工具类: 功能: 1、获取网页html 2、下载网络图片 多线程爬取网页代码: 截图: 以上就是本文的全部内容,希望对大家的学习有所帮助。

  • 本文向大家介绍php实现简单爬虫的开发,包括了php实现简单爬虫的开发的使用技巧和注意事项,需要的朋友参考一下 有时候因为工作、自身的需求,我们都会去浏览不同网站去获取我们需要的数据,于是爬虫应运而生,下面是我在开发一个简单爬虫的经过与遇到的问题。     开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章,并获取它的链接,以便我快速阅读。     按照

  • 互联网时代的信息爆炸是很多人倍感头痛的问题,应接不暇的新闻、信息、视频,无孔不入地侵占着我们的碎片时间。但另一方面,在我们真正需要数据的时候,却感觉数据并不是那么容易获取的。比如我们想要分析现在人在讨论些什么,关心些什么。甚至有时候,可能我们只是暂时没有时间去一一阅览心仪的小说,但又想能用技术手段把它们存在自己的资料库里。哪怕是几个月或一年后再来回顾。再或者我们想要把互联网上这些稍纵即逝的有用信息

  • 本系统采用主流编程语言php和mysql数据库,您可以通过自定义采集规则,或者到我的网站下载共享的规则,针对网站或者网站群,采集您所需的数据,您也可以向所有人共享您的采集规则哦。通过数据浏览和编辑器,编辑您所采集的数据。 本系统所有代码完全开源,并附有中文注释。