Hadoopy

Python 的 Hadoop 扩展
授权协议 GPL
开发语言 Python
所属分类 服务器软件、 集群/负载均衡
软件类型 开源软件
地区 不详
投 递 者 满伟彦
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Hadoopy 是一个用 Cython 编写的 Hadoop 扩展。它简单,快速,并且易于被修改。它已经在超过700个节点的集群中测试过了。

  • 提供简单的 Hadoop API 接口
  • 一般兼容性让用户可以来回切换
  • 可用于无 Python 和管理访问的 Hadoop 集群
  • 更快的转换和处理
  • 轻量级而且文档完善
  • 透明
  • Handle programs with complicated .so’s, ctypes, and extensions
  • Code written for hack-ability
  • 简单的 HDFS 访问,如读写和 ls
  • 支持更庞大的 Hadoop 生态系统
 相关资料
  • 一、背景 Hadoop的MapReduce中多文件输出默认是TextOutFormat,输出为part-r- 00000和part-r-00001依次递增的文件名。hadoop提供了 MultipleOutputFormat类,重写该类可实现定制自定义的文件名。 二、技术细节 1.环境:hadoop 0.19(目前hadoop 0.20.2对MultipleOutputFormat支持不好),li

  • Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。 TextInputFormat 用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置(偏移量,LongWrit

  • 一、背景      为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过 DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。 二、技术细节 1、DBInputFormat(Mysql为例),先创建表

  • 一、背景 由于以前没有细看hadoop提供的测试工具,只是在关注hadoop本身的内容,所以很多的性能测试都忽略了。最近花了一周的时间准备做个性能测试,但是都是采用自己的方法得出的抽象值。今天看淘宝的博客,提到hadoop自带的测试工具,遂试了一把,记录一下,供以后参考。 二、使用 我做基准测试主要是用了hadoop-0.20.2-test.jar这个工具jar包。主要是做了I/O的测试。在网上也

  • 一、环境 1、hadoop 0.20.2 2、操作系统Linux 二、背景 1、最近写MR的代码,总在想统计一些错误的数据出现的次数,发现如果都写在reduce的输出里太难看了,所以想找办法专门输出一些统计数字。 2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器,但都是基于0.19版本写的,好多函数都不对,改动相对较大。 3、基于上面2个理由,写个文档,记录一下。 三、实现

  • 一、环境配置 1、Eclipse 版本 3.3.X 2、Hadoop版本 0.20.2 二、配置流程 1、将\hadoop-0.20.2\hadoop-0.20.2\contrib\eclipse-plugin\下的hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse-SDK-3.3.2-win32\eclipse\plugins\下。 2、启动eclipse,点击

  • 顺便说一下,对于给定的类,我如何知道Maven中哪个工件包含它?例如,哪个包含org.apache.hadoop.io.text?

  • 问题内容: 我正在使用Hadoop的Java项目中工作,并且有一个java.lang.VerifyError,我不知道如何解决它。我看到有人遇到相同类型的问题,但没有答案,或者解决方案在我的情况下不起作用。 我的课 : 和错误: 你有什么主意吗 ?如果您需要更多帮助我的问题,请问。 问题答案: 我解决了我的问题。 导入的jar很好,但是我之前尝试过的另一个版本(可能是较旧的版本)也位于项目文件夹中