当前位置：首页 > 软件库 > 服务器软件 > 分布式应用/网格 >

Apache Crunch

授权协议 Apache

开发语言 Java

所属分类服务器软件、分布式应用/网格

软件类型开源软件

地区不详

投递者苏法

操作系统跨平台

开源组织 Apache

适用人群未知

软件官网

软件文档

官方下载

软件概览

Apache Crunch（孵化器项目）是基于Google的FlumeJava库编写的Java库，用于创建MapReduce流水线。与其他用来创建MapReduce作业的高层工具（如Apache Hive、Apache Pig和Cascading等）类似，Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库。而与其他工具不同的是，Crunch并不强制所有输入遵循同一数据类型。相反，Crunch使用了一种定制的类型系统，非常灵活，能够直接处理复杂数据类型，如时间序列、HDF5文件、Apache HBase表和序列化对象（像protocol buffer或Avro记录）等。

Crunch并不想阻止开发者以MapReduce方式思考，而是尝试使之简化。尽管MapReduce有诸多优点，但对很多问题而言，并非正确的抽象级别：大部分有意思的计算都是由多个MapReduce作业组成的，情况往往是这样——出于性能考虑，我们需要将逻辑上独立的操作（如数据过滤、数据投影和数据变换）组合为一个物理上的MapReduce作业。

使用案例

crunch学习一

最近在学习crunch 先附上官网文档地址http://crunch.apache.org/user-guide.html 首先是学习了一下getstart 然后才是user-guide 简述一下吧,作为一个笔记 1.crunch几个重要的接口PCollection, PTable, and PGroupedTable.Pipeline pipeline是一个类似与管道的东西,是所有的入口,实现类
Kali Linux 全部默认字典目录+crunch字典生成工具详细使用介绍

<![CDATA[ kali默认字典目录 cd /usr/share/wordlists/ ls 查看所有字典 dirb—— big.txt #大的字典 small.txt #小的字典 catala.txt #项目配置字典 common.txt #公共字典 euskera.txt #数据目录字典 extensions_common.txt #常用文件扩展名字典 indexes.txt #首

Apache Crunch

同类工具

相关阅读

相关文章

相关问答

相关文档