MapReduce只是一个计算框架。HBase与此无关。也就是说,通过编写MapReduce作业,您可以有效地将数据放入/取自HBase。或者,您可以使用其他HBase API(如Java)编写顺序程序来放置或获取数据。但是我们使用Hadoop、HBase等来处理海量的数据,所以这没有多大意义。当您的数据太大时,使用正常的顺序程序将非常低效。
回到问题的第一部分,Hadoop基本上有两个方面:一个分布式文件系统(HDFS)+一个计算或处理框架(MapReduce)。像所有其他FS一样,HDFS也提供我们的存储,但以容错的方式提供高吞吐量和较低的数据丢失风险(因为复制)。但是,作为FS,HDFS缺乏随机读写访问。这就是HBase出现的地方。这是一个分布式的、可伸缩的大数据存储,模仿谷歌的BigTable。它将数据存储为键/值对。
来蜂巢。它在现有的Hadoop集群之上为我们提供了数据仓库设施。此外,它还提供了一个类似SQL的接口,使您的工作更容易,如果您来自SQL背景。您可以在配置单元中创建表并在那里存储数据。除此之外,您甚至可以将现有的HBase表映射到配置单元并对其进行操作。
我之前写过一篇文章,对Hadoop生态系统中的不同工具进行了简短的比较。这不是一个深入的比较,但一个简短的介绍,这些工具可以帮助您开始。(只是为了补充我的回答。没有自我推销的意思)
Hive和Pig查询都在底层转换为MapReduce作业。
HTH
问题内容: 奇怪的是: 似乎或多或少被定义为。通过这种方式很容易产生错误: 一些fname意外地以else块结尾。修复很简单,我们应该改用它,但是从表面上看,这似乎是一种不错的pythonic方式,并且比“正确”的方式更具可读性。 由于字符串是不可变的,所以为什么字符串错误是什么技术细节?什么时候进行身份检查更好,什么时候进行平等检查更好? 问题答案: 据我所知,检查对象身份是否相等。由于没有强制
问题内容: 我有一个将客户发送到另一个站点来处理付款的应用程序。客户之外的另一个站点在我们的服务器上调用一个页面,让我们知道付款的状态。被调用页面会检查付款应用程序提供的参数,并检查我们是否知道该交易。然后,它更新数据库以反映状态。这一切都无需与客户进行任何互动即可完成。 我个人选择将此功能实现为JSP,因为将文件拖放到文件系统中比编译和打包文件然后将条目添加到配置文件中要容易得多。 考虑到页面的
问题内容: 何时使用和何时使用运算符? Java提供了两个选项来检查分配兼容性。什么时候使用? 问题答案: 我认为官方文档为您提供了答案(尽管以一种非常具体的方式): 此方法与Java语言instanceof运算符动态等效。 我认为这主要是指在运行时处理类型反射的代码中使用。特别是,我想说它的存在是为了处理您可能不事先知道要检查其成员资格的类的类型的情况(尽管这些情况可能很少)。 例如,您可以使用
您可以在整个web上读到AWT是旧的和不推荐的,而Swing是旧的,但比AWT新,应该尽可能优先于AWT。但是我如何确定什么时候可以用它的摆动挂件替换AWT组件呢?web中的几个示例仍然使用AWT组件,其中可以使用Swing。那么有没有一个明确的建议,从AWT中使用什么,什么不使用?我知道,当我使用官方不推荐的组件时,java编译器会给出一个简短的说明,例如: 将产生如下警告: 换句话说:及其子包
问题内容: 我怎么能说: 为什么函数调用中不需要括号,而最后一行呢? 问题答案: 是一个功能 调用该函数并产生该函数返回的任何值。 setTimeout的目的是在一段时间后运行代码。你需要的功能只是传递给它(这样的setTimeout可以自称在适当的时候函数),因为如果你将它传递给setTimeout的前调用的函数(用括号),将执行 现在 而不是1秒后,。
问题内容: Gradle构建有三个文件 定义构建配置脚本 问题 &之间有什么区别? vs. 什么时候应该设置设置? 问题答案: 就像文件一样,该文件是一个Groovy脚本。每个构建中将只执行一个脚本(与多项目构建中的多个脚本相比)。该脚本将在任何脚本之前甚至在创建实例之前执行。因此,针对对象对其进行评估。使用该对象,您可以将子项目添加到构建中,从命令行()修改参数,并访问该对象以注册生命周期处理程