当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

Chukwa

数据收集系统

授权协议 Apache

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区不详

投递者倪振海

操作系统跨平台

开源组织 Apache

适用人群未知

软件概览

什么是 Chukwa，简单的说它是一个数据收集系统，它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能，帮助我们进行数据的收集和整理。

为了更加简单直观的展示 Chukwa，我们先来看一个假设的场景。假设我们有一个规模很大 ( 牵扯到 Hadoop 的总是很大。。。。) 的网站，网站每天产生数量庞大的日志文件，要收集，分析这些日志文件可不是件容易的事情，读者可能会想了，做这种事情 Hadoop 挺合适的，很多大型网站都在用，那么问题来了，分散在各个节点的数据怎么收集，收集到的数据如果有重复数据怎么处理，如何与 Hadoop 集成。如果自己编写代码完成这个过程，一来需要花费不小的精力，二来不可避免的会引入 Bug。这里就是我们 Chukwa 发挥作用的时候了，Chukwa 是一个开源的软件，有很多聪明的开发者在贡献着自己的智慧。它可以帮助我们在各个节点实时监控日志文件的变化，增量的将文件内容写入 HDFS，同时还可以将数据去除重复，排序等，这时 Hadoop 从 HDFS 中拿到的文件已经是 SequenceFile 了。无需任何转换过程，中间繁杂的过程都由 Chukwa 帮我们完成了。是不是很省心呢。这里我们仅仅举了一个应用的例子，它还可以帮我们监控来自 Socket 的数据，甚至定时执行我们指定的命令获取输出数据，等等，具体的可以参看 Chukwa 官方文档。如果这些还不够，我们还可以自己定义自己的适配器来完成更加高级的功能。

相关资料

收集Firestore收集和子收集文档数据

我的Ionic 5应用程序中有以下Firestore数据库结构。书（集合） {bookID}（带有book字段的文档）赞（子集合） {userID}（文档名称作为带有字段的用户ID）集合中有文档，每个文档都有一个子集合。Like collection的文档名是喜欢这本书的用户ID。我正在尝试进行查询以获取最新的，同时尝试从子集合中获取文档以检查我是否喜欢它。我在这里做的是用每个图书ID调
数据收集(Stats Collection)

Scrapy提供了方便的收集数据的机制。数据以key/value方式存储，值大多是计数值。该机制叫做数据收集器(Stats Collector)，可以通过 Crawler API 的属性 stats 来使用。在下面的章节常见数据收集器使用方法将给出例子来说明。无论数据收集(stats collection)开启或者关闭，数据收集器永远都是可用的。因此您可以import进自己的模块并使用其
性能数据收集

从Chromium的内容模块收集跟踪数据,以发现性能瓶颈和缓慢的操作进程: 主进程这个模块不具备web接口,需要我们在chrome浏览器中添加 chrome://tracing/ 来加载生成结果文件. 注意该模块应当在 ready事件之后使用. 1 const {contentTracing} = require('electron') 2 const options = { 3 categ
A/B测试收集数据

主要内容：Google Analytics / Mix面板(分析工具),鼠标流/疯狂蛋(重播工具),WebEngage(测量工具),其他工具 - 聊天，电子邮件来自Google Analytics的数据可以帮助您找到访问者的行为。总是建议从网站收集足够的数据。尝试找到转化率较低或可以提高的高丢弃率的网页。在本章中，我们将讨论一些可用于收集A/B测试数据的工具。 Google Analytics / Mix面板(分析工具) 大多数网站都安装了Google Analytics，以了解访问者与网
Laravel 5收集帖子数据

我在处理post数据时遇到问题。例如，如果我有一个简单的小表格：然后收集数据并尝试回显：我得到一个错误：MethodNotAllowedHttpException在RouteCollection中。php第218行：如果我用GET做同样的事情，效果会很好。我试图编辑VerifyCsrfToken并添加：仍然不起作用。
Web API表单数据收集

我正在尝试将表单序列化值发布到控制器（WebAPI自宿主）。我无法理解为什么没有正确绑定NameValueCollection。使用jQuery的客户端：使用Web API自主机的服务器端：非常感谢。

同类工具

Scrapy GoldDataSpider Arachnid GECCO DenseSpider Blog-Hunter Harvestman Spidr

相关阅读

垃圾收集器（.net / java）是实时系统的问题吗？Java垃圾收集器-什么时候收集？JVM垃圾收集和分页内存体系结构 java DatagramSocket接收数据Multicast Socket发送数据关系数据模型

相关文章

系统垃圾回收机制数据库管理系统教程 Access关系型数据库 .NET Core垃圾收集 Java16 垃圾收集器

相关问答

MongoDB：重复数据删除收集收集代理人口的统计数据 C#不明确的呼叫数据收集。添加（System.Data.DataColumn）和“System”。数据数据收集。添加（字符串）Firebase Firestore从收集中获取数据收集SSH侦听器数据时的问题/JMeter收集侦听器数据时的延迟

相关文档

蓝天数据采集发布系统设计数据密集型应用数据采集从入门到放弃数据科学鲜活的数据数据可视化指南