Apache Crunch

授权协议 Apache
开发语言 Java
所属分类 服务器软件、 分布式应用/网格
软件类型 开源软件
地区 不详
投 递 者 苏法
操作系统 跨平台
开源组织 Apache
适用人群 未知
 软件概览

Apache Crunch(孵化器项目)是基于Google的FlumeJava库编写的Java库,用于创建MapReduce流水线。与其他用来创建MapReduce作业的高层工具(如Apache Hive、Apache Pig和Cascading等)类似,Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库。而与其他工具不同的是,Crunch并不强制所有输入遵循同一数据类型。相反,Crunch使用了一种定制的类型系统,非常灵活,能够直接处理复杂数据类型,如时间序列、HDF5文件、Apache HBase表和序列化对象(像protocol buffer或Avro记录)等。

Crunch并不想阻止开发者以MapReduce方式思考,而是尝试使之简化。尽管MapReduce有诸多优点,但对很多问题而言,并非正确的抽象级别:大部分有意思的计算都是由多个MapReduce作业组成的,情况往往是这样——出于性能考虑,我们需要将逻辑上独立的操作(如数据过滤、数据投影和数据变换)组合为一个物理上的MapReduce作业。

  • 最近在学习crunch 先附上官网文档地址http://crunch.apache.org/user-guide.html 首先是学习了一下getstart 然后才是user-guide 简述一下吧,作为一个笔记 1.crunch几个重要的接口PCollection, PTable, and PGroupedTable.Pipeline pipeline是一个类似与管道的东西,是所有的入口,实现类

  • <![CDATA[ kali默认字典目录 cd /usr/share/wordlists/ ls 查看所有字典 dirb—— big.txt #大的字典 small.txt #小的字典 catala.txt #项目配置字典 common.txt #公共字典 euskera.txt #数据目录字典 extensions_common.txt #常用文件扩展名字典 indexes.txt #首

相关阅读

相关文章

相关问答

相关文档